DeepWindows: تقسیم‌بندی نمونه ویندوز از طریق یک ماسک بهبودیافته R-CNN با استفاده از ماژول‌های توجه فضایی و ارتباط

پنجره ها به عنوان اجزای اصلی نمای ساختمان، در تجزیه نما مورد توجه روزافزون قرار گرفته اند. شبکه های عصبی کانولوشن نتایج امیدوارکننده ای را در استخراج پنجره نشان داده اند. اکثر روش‌های موجود یک نما را به دسته‌های معنایی تقسیم می‌کنند و متعاقباً از نظم‌دهی بر اساس ساختار معماری‌های دست‌ساز استفاده می‌کنند. این روش‌ها صرفاً به بهینه‌سازی پنجره‌های جداگانه، بدون در نظر گرفتن مناطق فضایی یا روابط پنجره‌ها مربوط می‌شوند. این مقاله یک روش جدید تقسیم‌بندی نمونه ویندوز بر اساس معماری Mask R-CNN ارائه می‌کند. این روش دارای یک شبکه پیشنهادی منطقه توجه فضایی و یک شبکه سر بهبود یافته با ماژول رابطه است. ابتدا یک ماژول توجه در شبکه پیشنهادی منطقه برای تولید یک نقشه توجه فضایی معرفی می شود. سپس نقشه توجه با نمرات شیئی شاخه طبقه بندی ضرب می شود. دوم، برای شبکه اصلی، ماژول‌های رابطه اضافه می‌شوند تا روابط فضایی بین پیشنهادات را مدل‌سازی کنند. ظاهر و ویژگی های هندسی به عنوان مثال برای تشخیص ترکیب شده اند. علاوه بر این، ما یک مجموعه داده بخش بندی نمونه پنجره جدید با ۱۲۰۰ تصویر حاشیه نویسی ساختیم. با مجموعه داده ما، میانگین دقت روش ما در تشخیص و تقسیم بندی از ۵۳٫۱٪ و ۵۳٫۷٪ به ۵۶٫۴٪ و ۵۶٫۷٪ در مقایسه با Mask R-CNN افزایش یافت. مقایسه با روش های پیشرفته نیز برتری روش پیشنهادی ما را ثابت می کند. ظاهر و ویژگی های هندسی به عنوان مثال برای تشخیص ترکیب شده اند. علاوه بر این، ما یک مجموعه داده بخش بندی نمونه پنجره جدید با ۱۲۰۰ تصویر حاشیه نویسی ساختیم. با مجموعه داده ما، میانگین دقت روش ما در تشخیص و تقسیم بندی از ۵۳٫۱٪ و ۵۳٫۷٪ به ۵۶٫۴٪ و ۵۶٫۷٪ در مقایسه با Mask R-CNN افزایش یافت. مقایسه با روش های پیشرفته نیز برتری روش پیشنهادی ما را ثابت می کند. ظاهر و ویژگی های هندسی به عنوان مثال برای تشخیص ترکیب شده اند. علاوه بر این، ما یک مجموعه داده بخش بندی نمونه پنجره جدید با ۱۲۰۰ تصویر حاشیه نویسی ساختیم. با مجموعه داده ما، میانگین دقت روش ما در تشخیص و تقسیم بندی از ۵۳٫۱٪ و ۵۳٫۷٪ به ۵۶٫۴٪ و ۵۶٫۷٪ در مقایسه با Mask R-CNN افزایش یافت. مقایسه با روش های پیشرفته نیز برتری روش پیشنهادی ما را ثابت می کند.

کلید واژه ها:

پنجره ها ؛ تقسیم بندی نمونه ; توجه فضایی ؛ ماژول رابطه ; ماسک R-CNN

۱٫ مقدمه

بازسازی سه بعدی (۳-بعدی) ساختمان ها به یک موضوع تحقیقاتی مهم در طول ۲ دهه گذشته تبدیل شده است [ ۱ ]. با افزایش تقاضا برای سطح بالای جزئیات (LoD) مدل‌های ساختمان [ ۲ ]، هندسه دقیق ساختمان‌ها و معنای عناصر نمای آن‌ها هر دو مهم هستند. پنجره ها مهمترین عناصر نمای ساختمان هستند. تشخیص و تقسیم بندی پنجره، طیف گسترده ای از علاقه های تحقیقاتی را در کاربردهای مختلف، مانند بازرسی های حرارتی [ ۳ ] و ارزیابی خطر سیل [ ۴ ] به خود جلب کرده است. در این مقاله، ما به مشکل تحقیق تقسیم بندی نمونه پنجره ها از تصاویر نمای جلویی می پردازیم ( شکل ۱ را ببینید). استخراج دقیق پنجره ها به دلیل پیچیدگی ساختمان ها در صحنه های واقعی چالش برانگیز است [ ۵ ، ۶ ]. به طور خاص، تنوع سبک های ساختمان معمولاً منجر به انواع هندسه های پنجره می شود. تزئینات نما که شبیه به پنجره هستند ممکن است باعث تشخیص نادرست شوند. انعکاس شیشه و تغییرات نور نیز به طور قابل توجهی بر ظاهر پنجره ها تأثیر می گذارد. علاوه بر این، مواد مبلمان آسیب دیده نماها، تنوع بافت نما و دشواری تشخیص پنجره را افزایش می دهد.

تصاویر و ابرهای نقطه ای دو نوع داده پرکاربرد در استخراج پنجره هستند. روش‌های مبتنی بر ابر نقطه‌ای معمولاً بر این فرضیه هستند که برجسته‌ترین ویژگی‌های اجزای نما مسطح هستند [ ۷ ]. دستیابی به این نیاز برای برخی از سبک های ساختمانی دشوار است. این مقاله بر روی رویکردهای مبتنی بر تصویر تمرکز دارد. در دهه‌های گذشته، روش‌های مبتنی بر دست‌سازی در تقسیم‌بندی معنایی نما غالب بودند. بر اساس ساختارهای تکراری و متقارن، روش‌های مبتنی بر دستور زبان و الگوریتم‌های تشخیص الگو به طور گسترده مورد مطالعه قرار گرفته‌اند [ ۸ ، ۹ ، ۱۰ ، ۱۱ ، ۱۲ ، ۱۳ ، ۱۴ ، ۱۵]. با این حال، در سال‌های اخیر، روش‌های یادگیری عمیق در حوزه‌های کاربردی مختلف معرفی و اعمال شده‌اند [ ۱۶ ، ۱۷ ]. برای کاربردهای پردازش تصویر، شبکه‌های عصبی کانولوشنال (CNN) توانایی قدرتمندی در تقسیم‌بندی تصویر و تشخیص اشیا نشان می‌دهند [ ۱۸ ، ۱۹ ، ۲۰ ، ۲۱ ]. برخلاف روش‌های سنتی، روش‌های یادگیری عمیق می‌توانند با نماها بدون ساختارهای سخت‌گیرانه مقابله کنند. تعدادی از رویکردهای مبتنی بر CNN برای تقسیم بندی نما [ ۲۲ ، ۲۳ ، ۲۴ ، ۲۵ ، ۲۶ ] و تشخیص پنجره [ ۲۷ ، ۲۸ ] پیشنهاد شده است.]. با این حال، این روش ها تنها هر پنجره را به عنوان یک جزء مجزا در نظر می گیرند. اگرچه به خوبی اعتقاد بر این است که مدل‌سازی مکان‌ها و روابط فضایی به تشخیص و تقسیم‌بندی اشیا کمک می‌کند، تعداد کمی از محققان این ایده را در استخراج پنجره اعمال کرده‌اند.

در این مقاله، ما یک خط لوله جدید از تقسیم‌بندی نمونه برای ویندوز پیشنهاد می‌کنیم. روش ما بر اساس Mask R-CNN [ ۲۱ ] است و با یک ماژول توجه فضایی و یک ماژول رابطه ادغام شده است. ماژول های توجه فضایی و رابطه ابتدا در کاربرد تقسیم بندی نمونه ویندوز استفاده می شوند. با این عملیات توجه، روش ما می تواند روابط فضایی بین پنجره ها را مدل کند. این بدیهی است که برای استخراج سازه های دست ساز مفید است. سهم این مقاله در سه جنبه نهفته است:

ما یک ماژول توجه فضایی را به شبکه پیشنهادی منطقه (RPN) اضافه کردیم و از مکانیسم‌های توجه مکانی و مکانی برای بهینه‌سازی امتیازات شیئی RPN استفاده کردیم.
ما ماژول‌های رابطه را در شبکه اصلی Mask R-CNN و ویژگی‌های ظاهری و هندسی یکپارچه‌ای برای تشخیص پیشنهاد تعبیه کردیم.
مجموعه داده‌های مختلف را استاندارد و به هم متصل کردیم و تعدادی تصویر جدید اضافه کردیم تا یک مجموعه داده تقسیم‌بندی نمونه جدید برای یک کلاس پنجره با ۱۲۰۰ تصویر حاشیه‌نویسی ایجاد کنیم.

این مقاله به شرح زیر سازماندهی شده است: در بخش زیر، برخی از مطالعات اخیر در مورد استخراج پنجره، از جمله روش های سنتی و مبتنی بر CNN، ارائه شده و برخی از ماژول های توجه بصری معرفی می شوند. بخش ۳ روش پیشنهادی ما و نوآوری های اصلی را به تفصیل معرفی می کند. بخش ۴ مجموعه داده های تقسیم بندی نمونه پنجره پیشنهادی و نتایج آزمایش روش پیشنهادی را شرح می دهد. در بخش ۵ ، رویکرد خود و نتایج به دست آمده را مورد بحث قرار می دهیم. و در نهایت، برخی از نکات پایانی در بخش ۶ ارائه شده است.

۲٫ کارهای مرتبط

استخراج پنجره یکی از مهمترین بخش های تجزیه نما می باشد. این موضوع برای چندین دهه به طور فعال مورد مطالعه قرار گرفته است. اگرچه برخی مطالعات از ابرهای نقطه اسکن لیزری یا ابرهای نقطه فتوگرامتری برای استخراج پنجره استفاده کرده اند [ ۲۹ ، ۳۰ ، ۳۱ ، ۳۲ ، ۳۳ ]، این بخش مروری بر رویکردهای مبتنی بر تصویر ارائه می دهد. ما این روش ها را به دو دسته تقسیم می کنیم: روش های سنتی و مبتنی بر CNN.

روش‌های سنتی معمولاً بر دانش قبلی مانند ساختارهای تکراری و تقارن پنجره‌ها متکی هستند. آلگره و همکاران [ ۸ ] یک مدل تولیدی بیزی از گرامرهای تصادفی بدون زمینه برای رمزگذاری دانش در مورد نماها ساخت. این مدل یک ساختار سلسله مراتبی را در نظر می گیرد و از نمونه برداری مونت کارلو زنجیره مارکوف برای تقریب پارتیشن های خلفی با استفاده از یک تصویر استفاده می کند. مولر و همکاران [ ۹ ] خط لوله مدل‌سازی رویه‌ای گرامرهای شکل را با تجزیه و تحلیل تصویر ترکیب کرد تا یک زیربخش نمای سلسله مراتبی معنی‌دار به دست آورد. علی و همکاران [ ۱۰] از نمایش موجک Haar چند مقیاسی برای به دست آوردن کاشی های نما استفاده کرد. سپس این کاشی‌ها به طبقه‌بندی درخت تصمیم آبشاری که توسط Gentle Adaboost هدایت می‌شود، وارد می‌شوند. Reznik و Mayer [ ۱۱ ] از مدل های شکل ضمنی [ ۳۴ ] برای شناسایی و ترسیم پنجره ها استفاده کردند. سپس، همراه با جارو کردن هواپیما، پنجره ها در ردیف ها یا ستون ها را می توان با دقت بیشتری تشخیص داد. سیمون و همکاران [ ۱۲ ] یک رویکرد مدولار برای ساخت مدلسازی سه بعدی با استفاده از گرامرهای رویه ای پیشنهاد کرد. این رویکرد برای نماهایی با تکرارها و نظم های زیاد مناسب است. یک جنگل تصادفی پیکسلی برای یافتن شواهد هنگام انتخاب قواعد دستور زبان استفاده می شود. کوهن و همکاران [ ۱۳] برنامه نویسی پویا را برای بخش بندی اشیاء نما اعمال کرد. روش پیشنهادی یک رویکرد تجزیه را بازیابی می‌کند، که محدودیت‌های معماری رایج را در نظر می‌گیرد و یک گواهی برای بهینه‌سازی جهانی برمی‌گرداند. جامپانی و همکاران [ ۱۴ ] از ویژگی های زمینه خودکار برای اتصال دنباله ای از درخت های تصمیم تقویت شده استفاده کرد. اطلاعات قبلی ساختار یافته را می توان با استفاده از تعمیم انباشته یاد گرفت. روش آنها ساده برای پیاده سازی و آسان برای گسترش است. ماتیاس و همکاران [ ۱۵] یک رویکرد سه لایه برای تجزیه نما پیشنهاد کرد. این سه لایه نشان دهنده سطوح مختلف انتزاع در تصاویر نما هستند: بخش ها، اشیاء و عناصر معماری. قوانین معماری پنجره ها و درها در نظر گرفته شده است. به عنوان یکی از محدودیت‌های روش‌های تجزیه نما سنتی، آنها فرض می‌کنند که تصاویر نما اصلاح شده و برش داده شده‌اند. بنابراین آنها می توانند از پیشینه های معماری بسیار قوی تری استفاده کنند.

با توسعه رویکردهای یادگیری عمیق، CNN ها به نتایج پیشرفته ای در تشخیص و تقسیم بندی اشیا دست یافته اند. روش های مبتنی بر CNN می توانند ویژگی های تصویر را از حاشیه نویسی یاد بگیرند. بسیاری از محققان مطالعات ارزشمندی را در مورد تقسیم بندی نما مبتنی بر CNN انجام داده اند. با بهترین دانش ما، اشمیتز و مایر [ ۲۲ ] اولین کسانی هستند که یادگیری عمیق را در بخش بندی نما اعمال کردند. آنها از AlexNet [ ۳۵ ] به عنوان ستون فقرات استفاده کردند و یک ساختار رمزگذار-رمزگشا ساختند. آنها شبکه را با استفاده از تکه های تغییر شکل داده شده تصاویر آموزش دادند. با این حال، آنها از ساختار در نماها استفاده نکردند. Fathalla و Vogiatzis [ ۳۶ ] نشانه های ظاهر و چیدمان را در یک چارچوب واحد یکپارچه کردند. آنها از VGG-16 استفاده کردند [ ۳۷شبکه کاملاً کانولوشنال مبتنی بر] (FCN) [ ۱۸ ] برای به دست آوردن نتایج تقسیم بندی معنایی درشت. نتایج بیشتر از طریق یک شکل احتمالی که قبلاً توسط ماشین‌های بولتزمن محدود آموزش دیده (RBM) گرفته شده بود، بهبود می‌یابد. فمیانی و همکاران [ ۲۴ ] سه معماری شبکه را برای دستیابی به تقسیم بندی معنایی نمای چند برچسبی پیشنهاد کرد. هر شبکه به طور خاص برای حل یک مشکل متفاوت طراحی شده است. اولین شبکه که MultiFacSegnet نام دارد، قصد دارد چندین برچسب به هر پیکسل اختصاص دهد. شبکه دوم که شبکه Separable نامیده می شود، استخراج اجسام مستطیلی را تشویق می کند. علاوه بر این، یک شبکه سازگاری سعی می کند با جستجوی بخش بندی در انواع عناصر نما، خطاها را از بین ببرد. ما و همکاران [ ۲۶] یک شبکه هرمی Atrous Large Kernel (ALKNet) برای تقسیم بندی معنایی تصاویر نما پیشنهاد کرد. روش آنها می‌تواند وابستگی‌های دوربرد را در بین عناصر ساختمان با استفاده از ماژول‌های ALK در نقشه‌های ویژگی چندمقیاسی ثبت کند. از ساختارهای منظم نماها برای جمع آوری اطلاعات مفید زمینه غیر محلی استفاده کامل می کند و بنابراین می تواند با مناطق چالش برانگیز تصویر ناشی از انسداد، ابهام و سایر عوامل مقابله کند.

روش‌های بالا همچنان بر تقسیم‌بندی معنایی، بدون شناسایی نمونه‌های پنجره تکیه می‌کنند. لیو و همکاران [ ۲۳ ] یک شبکه DeepFacade را پیشنهاد کرد که از یک تنظیم کننده متقارن برای آموزش یک FCN استفاده می کند. نویسندگان از یک الگوریتم خوشه‌بندی برای تقسیم نتایج تقسیم‌بندی پیکسلی به پنجره‌های جداگانه استفاده کردند. علاوه بر این، آنها یک اصطلاح ضرر متقارن را برای بهبود نتایج پیشنهاد کردند. اخیراً، نویسندگان یک شبکه پیشنهادی منطقه (RPN) را در اصطلاح تلفات متقارن خود معرفی کردند [ ۲۵ ]. فاصله بین پنجره‌های خوشه‌ای و جعبه‌های مرزی شناسایی‌شده به عنوان یک معیار تلفات در نظر گرفته می‌شود. لی و همکاران [ ۲۷] تشخیص پنجره را به عنوان موضوعی برای تشخیص و گروه بندی نقاط کلیدی در نظر می گیرد. روش آنها یک پنجره را به عنوان چهار نقطه کلیدی تشخیص می دهد و به آن اجازه می دهد با پنجره های نامنظم توزیع شده و نماهای پیچیده تحت شرایط مختلف مقابله کند. ما و همکاران [ ۲۸ ] یک معماری بهبود یافته Faster R-CNN [ ۲۰ ] برای تشخیص پنجره طراحی کرد. نوآوری ها شامل یک شبکه پیشنهادی منطقه پنجره، یک ترکیب ویژگی منطقه مورد علاقه (RoI) و یک ماژول بهبود زمینه است. علاوه بر این، یک فرآیند پس بهینه‌سازی از طریق توزیع منظم پنجره‌ها برای اصلاح نتایج تشخیص به‌دست‌آمده از معماری عمیق بهبودیافته طراحی شده است.

روش‌های فوق‌الذکر تنها پنجره‌ها را به عنوان اشیاء منفرد در نظر می‌گیرند، بدون اینکه توزیع فضایی و روابط مکان آن‌ها را در فرآیند آموزش انتها به انتها ادغام کنند. مکانیسم‌های توجه در بسیاری از کارهای محاسباتی بصری مؤثر هستند [ ۳۸ ]. با ماژول‌های توجه، شبکه‌ها می‌توانند وابستگی‌های دوربرد را جذب کرده و اطلاعات زمینه جهانی را مدل‌سازی کنند. هو و همکاران [ ۳۹ ] یک بلوک Squeeze-and-Excitation (SE) را برای بهره برداری از رابطه کانال ویژگی ها پیشنهاد کرد. علاوه بر توجه به کانال، وو و همکاران. [ ۴۰ ] یک ماژول توجه بلوک کانولوشن (CBAM) ارائه کرد که توجه فضایی را نیز در نظر می گیرد. وانگ و همکاران [ ۴۱] عملیات غیر محلی (NL) را برای گرفتن وابستگی های دوربرد ارائه کرد. عملیات غیرمحلی آنها پاسخ را در یک موقعیت به عنوان مجموع وزنی ویژگی ها در همه موقعیت ها محاسبه می کند. برای غلبه بر هزینه محاسبات سنگین عملیات غیر محلی، Cao و همکاران. [ ۴۲ ] یک بلوک Global Context (GC) طراحی کرد که می تواند دقت بهتری را اما با محاسبات بسیار کمتر به دست آورد. هو و همکاران [ ۴۳ ] یک ماژول رابطه شی پیشنهاد کرد. ماژول می تواند ظاهر و ویژگی های هندسی را برای مدل سازی رابطه اشیاء ادغام کند. با الهام از این ماژول‌های توجه، ما یک شبکه تقسیم‌بندی نمونه جدید را پیشنهاد می‌کنیم که ماژول‌های توجه و رابطه فضایی را در یک Mask R-CNN ادغام می‌کند.

۳٫ روش شناسی

۳٫۱٫ معماری شبکه

Mask R-CNN بهبود یافته ما در شکل ۲ نشان داده شده است . این شامل سه بخش است: ResNet-50 و یک شبکه هرمی ویژگی (FPN) به عنوان ستون فقرات. شبکه پیشنهادی منطقه (RPN) با توجه فضایی. و یک شبکه سر با ماژول های رابطه. اول، به عنوان Mask R-CNN اصلی، ResNet-50 [ ۴۴ ] و یک FPN [ ۴۵] به عنوان ستون فقرات برای استخراج نقشه های ویژگی چند مقیاسی استفاده می شود. سپس، یک RPN برای پیش‌بینی امتیازات شیئی و محدوده شی در هر موقعیت استفاده می‌شود. در همین حال، یک ماژول توجه برای به دست آوردن نقشه توجه فضایی استفاده می شود. امتیازات شیئی و نقشه توجه فضایی با استفاده از ضرب عنصری ادغام می شوند. پروپوزال هایی که امتیازات بالاتری دارند وارد شبکه اصلی می شوند. در شبکه سر، دو شاخه وجود دارد: یک هد کاملاً متصل (FC) برای تشخیص پیشنهاد (طبقه‌بندی و رگرسیون جعبه مرزی) و یک سر ماسک برای تقسیم‌بندی با استفاده از یک FCN کوچک. ماژول های رابطه پس از هر لایه کاملا متصل سر FC تعبیه می شوند. روابط مکان شی را می توان با استفاده از این ساختار یاد گرفت.

۳٫۲٫ RPN با توجه فضایی

RPN اولین بار توسط رن و همکاران ارائه شد. در سریعتر R-CNN [ ۲۰ ]. RPN شامل دو شاخه است: طبقه بندی و رگرسیون جعبه مرزی. از آنجا که ما از یک FPN در ستون فقرات استفاده می کنیم، RPN در هر سطح از نقشه های ویژگی اعمال می شود. در هر موقعیت نقشه ویژگی، سه لنگر با اشکال مختلف وجود دارد. زیرشبکه طبقه بندی می تواند برای هر لنگر امتیاز شیئی را پیش بینی کند. بنابراین، ویژگی خروجی شاخه طبقه بندی شامل سه کانال است. زیرشبکه رگرسیون جعبه مرزی می تواند محدوده شی لنگرها را پیش بینی کند. تعداد کانال های خروجی ۱۲ است که مربوط به ، ، ، و به ترتیب برای هر لنگر.

RPN توجه فضایی ما در شکل ۳ نشان داده شده است . یک ماژول توجه به عنوان یک شاخه جدید اضافه شده است. با توجه به نقشه ویژگی ورودی ، روش ما به طور متوالی یک نقشه توجه کانال ۱ بعدی ایجاد می کند و یک نقشه توجه فضایی دو بعدی . سپس نقشه توجه فضایی دوبعدی و نمرات شیئی شبکه طبقه بندی از طریق یک ضرب عنصری ادغام می شوند. فرآیند توجه کلی را می توان به صورت زیر خلاصه کرد:

(۱)

که در آن ⊗ نشان دهنده ضرب عنصری است، نقشه ویژگی ورودی را نشان می دهد، نقشه ویژگی را پس از ضرب با توجه کانال نشان می دهد و نمرات شیئی شاخه طبقه بندی را نشان می دهد. در طی ضرب، مقادیر توجه بر این اساس پخش می شوند (کپی می شوند): مقادیر توجه کانال در امتداد بعد فضایی پخش می شود. و مقادیر توجه فضایی در امتداد بعد کانال با توجه به خروجی های زیرشبکه طبقه بندی پخش می شوند.

نقشه توجه کانال می تواند رابطه بین کانالی ویژگی ها را بیان کند. اطلاعات مکانی هر نقشه مشخصه به ترتیب با میانگین جهانی و عملیات ادغام حداکثر جهانی جمع‌آوری می‌شود و دو توصیف‌گر زمینه فضایی متفاوت ایجاد می‌کند: و . سپس هر دو توصیفگر به یک شبکه مشترک ارسال می شوند. شبکه مشترک از پرسپترون چندلایه (MLP) با دو لایه کاملاً متصل تشکیل شده است: و . پس از اعمال شبکه مشترک به هر توصیفگر، دو بردار ویژگی خروجی از طریق یک جمع بندی عنصری با هم ادغام می شوند تا نقشه توجه کانال ما تولید شود. . به طور خلاصه، توجه کانال به صورت زیر محاسبه می شود:

(۲)

جایی که نشان دهنده تابع سیگموئید است. علاوه بر این، یک پرسپترون چندلایه را نشان می‌دهد که شامل دو لایه کاملاً متصل و یک تابع فعال‌سازی واحد خطی اصلاح‌شده (ReLU) است. اینجا، و به اشتراک گذاشتن وزن های یکسان برای هر دو ورودی. و به ترتیب میانگین جهانی و حداکثر تجمیع جهانی را نشان می دهد.

نقشه توجه فضایی رابطه بین فضایی ویژگی ها را نشان می دهد. برای محاسبه توجه فضایی، ابتدا عملیات ادغام میانگین و حداکثر ادغام را در امتداد محور کانال اعمال کرده و آنها را برای ایجاد یک توصیفگر ویژگی کارآمد به هم متصل می کنیم. . در توصیفگر ویژگی الحاقی، ما یک لایه پیچیدگی را برای ایجاد یک نقشه توجه فضایی اعمال می کنیم ، که محل تاکید یا سرکوب را رمزگذاری می کند. به طور خلاصه، توجه فضایی به صورت محاسبه می شود

(۳)

جایی که نشان دهنده تابع سیگموئید است. یک عملیات پیچشی با اندازه فیلتر ۷ × ۷ را نشان می دهد. ترکیبی از نقشه های ویژگی را نشان می دهد. و میانگین و حداکثر هستند. ادغام در امتداد محور کانال

۳٫۳٫ شبکه اصلی با ماژول های ارتباط

پس از اعمال RPN، می‌توانیم پیشنهاداتی را به دست آوریم که شامل نقشه‌های ویژگی اشیاء پیش‌زمینه است. نقشه ویژگی هر شی به صورت جداگانه توسط شبکه اصلی پردازش می شود. روابط بین این اشیا توسط شبکه در نظر گرفته نمی شود یا یاد نمی گیرد. با این حال، شکی نیست که مدل سازی روابط بین اشیا، تشخیص و تقسیم بندی اشیا را بهبود می بخشد. از این رو، پس از توجه فضایی ما به RPN، ماژول های رابطه در شبکه اصلی Mask R-CNN تعبیه شده اند تا روابط بین اشیاء پنجره را یاد بگیرند.

۳٫۳٫۱٫ ماژول رابطه

ماژول رابطه شی توسط Hu و همکارانش پیشنهاد شد. [ ۴۳ ] در سال ۲۰۱۸٫ رویکرد آنها از یک ماژول توجه اساسی، به نام Scaled Dot-Product Attention [ ۴۶ ] الهام گرفته شد. برای یک شی، یک ویژگی ظاهری وجود دارد و یک ویژگی هندسی . ویژگی ظاهری نقشه ویژگی بریده شده را در کادر محدود آن نشان می دهد. ویژگی هندسی کادر چهار بعدی محدود کننده جسم را نشان می دهد. شکل ۴ محاسبه ویژگی رابطه را نشان می دهد. برای شیء n ، ویژگی ظاهری آن و ویژگی های ظاهری اشیاء دیگر از طریق یک محصول نقطه ای به زیر فضاها نمایش داده می شوند. سپس وزن ظاهری که شباهت های آنها را نشان می دهد محاسبه می شود. ویژگی های هندسی و همچنین در یک نمایش با ابعاد بالا با استفاده از توابع سینوسی و کسینوس با طول موج های مختلف تعبیه شده اند [ ۴۶ ]. در نهایت وزن ظاهری، وزن هندسی و با هم ترکیب می شوند تا یک ویژگی رابطه به دست آید .

پس از مجموع ویژگی‌های رابطه محاسبه می‌شوند، همه ویژگی‌های رابطه به هم پیوسته و با ویژگی ظاهر ورودی افزوده می‌شوند. از طریق یک جمع، همانطور که در معادله ( ۴ ) نشان داده شده است.

(۴)

جایی که نشان دهنده ویژگی ظاهری n امین شیء است، نشان می دهد ویژگی رابطه n امین شیء، نشان دهنده الحاق نقشه های ویژگی، و نشان دهنده ویژگی ظاهری جدید پس از تکمیل شدن با ماژول های رابطه است.

۳٫۳٫۲٫ رابطه برای تقسیم بندی نمونه

ماژول رابطه سبک و در جای خود است. نیازی به نظارت اضافی ندارد و به راحتی در شبکه های موجود جاسازی می شود. در این بخش، ماژول‌های رابطه را در شبکه اصلی Mask R-CNN تعبیه می‌کنیم. شامل دو شعبه در شبکه اصلی است. یک شاخه از دو لایه کاملاً متصل (۲FC) برای ایجاد ویژگی های نهایی برای طبقه بندی پیشنهاد و رگرسیون جعبه مرزی استفاده می کند. شاخه دیگر از لیستی از لایه های کانولوشن برای تقسیم بندی باینری اشیا استفاده می کند.

معادله ( ۵ ) ساختار سر ۲FC را نشان می دهد. با توجه به ویژگی های RoI برای پیشنهاد n ، دو لایه FC با ابعاد ۱۰۲۴ اعمال می شود. سپس از لایه های خطی برای طبقه بندی نمونه استفاده می شود و رگرسیون جعبه مرزی .

(۵)

معادله ( ۶ ) نحوه تعبیه ماژول های رابطه را نشان می دهد. ). از آنجایی که ماژول‌های رابطه می‌توانند ابعاد ویژگی‌های ورودی و خروجی را حفظ کنند، می‌توانند بعد از هر یک از لایه‌های FC استفاده شوند و برای تعداد دلخواه تکرار شوند. اینجا، و زمان های تکراری هر ماژول رابطه را نشان می دهد.

(۶)

۴٫ آزمایشات

در این بخش، رویکردهای خود را با استفاده از مجموعه داده‌های نمونه پنجره ارزیابی می‌کنیم. مدل‌های ما با استفاده از PyTorch و Detectron2 [ ۴۷ ] پیاده‌سازی شدند. کدها برای عموم در دسترس خواهند بود ( https://github.com/SunYW0108 ، در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی هستند). برای شبکه های ستون فقرات، از ResNet-50 با پارامترهای مدل از پیش آموزش دیده در وظایف طبقه بندی ImageNet استفاده کردیم [ ۴۸ ]. پارامترهای دو مرحله اول منجمد شد، یعنی در طول تمرین تغییر نخواهد کرد.

ما نتایج آزمایش را از طریق تجسم ها و معیارهای عملکرد عددی، به عنوان مثال، میانگین دقت متوسط (mAP) ارزیابی کردیم. در معیارهای ارزیابی Microsoft Common Objects in Context (COCO) [ ۴۹ ]، AP بیش از ۱۰ مقدار Intersection over Union (IoU) که ۰٫۵۰-۰٫۹۵ با اندازه گام ۰٫۰۵ است، به طور میانگین محاسبه می شود. و نشان دهنده AP ها در IoUs 0.50 و ۰٫۷۵ بود. ، ، و APهای کوچک (منطقه < )، متوسط ( <منطقه < ، و بزرگ (مساحت > ) اشیاء به ترتیب. mAP در تمام دسته ها به طور میانگین محاسبه می شود. در رویکرد ما، هیچ تمایزی بین AP و mAP وجود ندارد زیرا ما فقط بر روی یک کلاس تمرکز می‌کنیم، یعنی ویندوز.

۴٫۱٫ مجموعه داده جدید ما

در حال حاضر، مجموعه داده‌های نمای ساختمان در دسترس عموم، عمدتاً برای وظایف بخش‌بندی معنایی تصویر طراحی شده‌اند. برای آماده سازی آنها برای تقسیم بندی نمونه ویندوز، اشیاء پنجره را از تصاویر حاشیه نویسی استخراج می کنیم و اطلاعات این پنجره ها را در قالب قطعه بندی نمونه COCO کدگذاری می کنیم. در این مطالعه، شش مجموعه داده نما، CMP [ ۵۰ ]، eTRIMS [ ۵۱ ]، ECP [ ۵۲ ]، ICG Graz50 [ ۵۳ ]، RueMonge 2014 [ ۵۴ ] و ParisArtDeco [ ۵۵ ] انتخاب شدند. این نماها از شهرهای مختلف دنیا و دارای سبک های معماری متنوعی هستند. حاشیه نویسی مجموعه داده ECP توسط Martinović و همکاران ارائه شده است. [ ۵۶]، جایی که حاشیه‌نویسی‌های آن‌ها بر اساس مقایسه بصری، بهتر با حقیقت اصلی واقعی مطابقت دارد. علاوه بر این، ۸۲ تصویر گرفته شده توسط خودمان را به صورت دستی حاشیه نویسی کردیم.

همه تصاویر و حاشیه نویسی استاندارد شده و به هم متصل می شوند تا یک مجموعه داده تقسیم بندی نمونه جدید ایجاد کنند. تعداد تصاویر موجود در مجموعه داده های پیوسته ما در جدول ۱ نشان داده شده است. تصاویر و برچسب‌های هر مجموعه داده به طور تصادفی به پنج قسمت تقسیم می‌شوند که از بین آنها چهار قسمت برای آموزش و یک قسمت برای آزمایش استفاده می‌شود. تعداد کل تصاویر در مجموعه داده ما در ردیف آخر جدول نشان داده شده است. تعداد تصویر برای آموزش ۹۵۹ عدد عکس برای تست ۲۴۱ عدد می باشد.

۴٫۲٫ سه نوع از RPN با ماژول های توجه

در این بخش، نتایج سه ترکیب را با استفاده از ماژول های توجه و RPN مقایسه می کنیم. معماری شبکه ترکیبات مختلف در شکل ۵ نشان داده شده است. در شکل ۵ ، AM نشان دهنده ماژول توجه، cls نشان دهنده زیرشبکه طبقه بندی، reg نشان دهنده زیر شبکه رگرسیون جعبه مرزی، CA توجه کانال، SA توجه فضایی، و ⊗ نشان دهنده ضرب عنصری است. در نوع اول ( شکل ۵الف)، ویژگی ورودی به سه شاخه تغذیه می شود: یک ماژول توجه، طبقه بندی و رگرسیون جعبه مرزی. در زیرشبکه ماژول توجه، ابتدا یک نقشه توجه کانال محاسبه شده و با ویژگی ورودی ادغام می شود تا یک نقشه ویژگی جدید به دست آید. سپس یک نقشه توجه فضایی برای ضرب با نمرات شیئی شاخه طبقه بندی ایجاد می شود. این معماری دارای برچسب cls(AM)_reg است. در معماری نشان داده شده در شکل ۵ ب، با برچسب cls(AM)_reg(AM)، نقشه توجه فضایی بیشتر با نقشه های خروجی رگرسیون جعبه مرزی ادغام می شود. در شکل ۵ج، ماژول توجه بر روی ویژگی ورودی اجرا می شود. سپس ویژگی خروجی برای طبقه بندی و رگرسیون جعبه مرزی استفاده می شود. این معماری با عنوان AM_cls_reg برچسب گذاری شده است.

نتایج سه ترکیب مختلف و Mask R-CNN اصلی در جدول ۲ نشان داده شده است. نمرات برتر به صورت پررنگ نشان داده شده است. چهار ردیف جلو AP ها را برای تشخیص اشیا نشان می دهند. به طور مشابه، چهار ردیف در مقابل نشان دهنده AP ها برای تقسیم بندی نمونه شی. نتایج Mask R-CNN به عنوان خط پایه استفاده می شود. همانطور که در جدول ۲ مشاهده می شود ، روش ما cls(AM)_reg می تواند به بهترین AP در هر دو وظایف تشخیص و تقسیم بندی اشیا دست یابد که به ترتیب ۰٫۷% و ۰٫۷% بیشتر از روش اصلی Mask R-CNN است. مستثنی کردن ، ، و ، روش ما بهترین نتایج را برای سایر اندازه گیری های ارزیابی به دست آورده است. اگرچه cls(AM)_reg(AM) می تواند نتایج بهتری نسبت به Mask R-CNN اصلی به دست آورد، نتایج آن کمتر از روش ما است. علاوه بر این، AM_cls_reg به نتیجه ای بدتر از Mask R-CNN اصلی دست می یابد. نتایج آزمایش نشان می‌دهد که RPN توجه فضایی ما، با برچسب cls(AM)_reg، معقول و مؤثر است. روش بخش زیر بر اساس این معماری پیاده سازی شده است.

۴٫۳٫ مقایسه پارامترها برای ماژول های رابطه

در شبکه سر با ماژول های رابطه، دو پارامتر کلیدی وجود دارد: تعداد روابط و تعداد ماژول ها . هو و همکاران [ ۴۳ ] آزمایشاتی را روی این پارامترها انجام داد. برای مجموعه داده‌های تشخیص COCO، روش آنها با تعداد روابط به بالاترین AP دست می‌یابد برابر با ۱۶٫ برای تعداد ماژول ها ، توصیه می کنند و با توجه به مبادله بین AP و پیچیدگی محاسبات. از این رو، در آزمایشات ما، و اعمال می شود و نتایج حاصل از تعداد رابطه های مختلف مقایسه می شوند.

نتایج آزمایش با استفاده از RPN توجه فضایی و ماژول های رابطه در جدول ۳ نشان داده شده است. ما همچنین نتایج را با استفاده از ماژول های رابطه بدون توجه فضایی RPN، همانطور که در جدول ۴ ذکر شده است، نشان می دهیم .

مقادیر AP به صورت نمودار خطی در شکل ۶ نشان داده شده است. محور افقی تعداد روابط را نشان می دهد. محور عمودی مقادیر AP روش های مختلف را نشان می دهد. خطوط ثابت به رنگ قرمز و آبی به ترتیب نشان دهنده APهای روش ما برای تشخیص و تقسیم بندی شی هستند. خطوط تیره قرمز و آبی نشان دهنده این است و از Mask R-CNN با ماژول های رابطه، به ترتیب. همانطور که در شکل ۶ نشان داده شده است ، زمانی که تعداد روابط کوچک است (کمتر از ۸)، با افزایش تعداد روابط، و این دو الگوریتم افزایش می یابد، اگرچه مزایای روش ما به تدریج کاهش می یابد. وقتی تعداد روابط برای روش ما ۱۶ و برای Mask R-CNN با ماژول‌های رابطه برابر با ۳۲ باشد، APs اندکی کاهش می‌یابد. هنگامی که تعداد روابط برابر با ۳۲ باشد، روش ما می تواند به بالاترین نتایج AP دست یابد. با ادامه افزایش تعداد روابط، مقادیر AP روش ما شروع به کاهش می کند. وقتی تعداد روابط برابر با ۶۴ باشد، Mask R-CNN با ماژول های رابطه بالاترین نتایج AP را به دست می آورد. با در نظر گرفتن مبادله بین AP و پیچیدگی محاسباتی، در رویکرد ما استفاده می شود. نتایج آزمایش‌ها مزیت RPN توجه فضایی را نشان می‌دهد. بنابراین، روش ما می تواند نتایج AP بالاتری را با تعداد روابط کمتر به دست آورد.

وقتی تعداد روابط برابر با ۳۲ باشد، و روش ما به ترتیب به ۵۶٫۴% و ۵۶٫۷% می رسد. مقایسه این نتایج با نتایج روش بدون ماژول های رابطه در بخش ۴٫۲ (cls(AM)_reg)، و به ترتیب ۲٫۶ درصد و ۲٫۳ درصد افزایش یافت. این ثابت می کند که ماژول های رابطه اطلاعات بین اشیاء را یاد گرفته اند. علاوه بر این و روش ما به ترتیب ۳٫۳% و ۳٫۰% از ماسک R-CNN بالاتر است.

۴٫۴٫ نتایج کیفی

این بخش مقایسه کیفی روش پیشنهادی و Mask R-CNN را نشان می‌دهد. همانطور که در شکل ۷ ، شکل ۸ و شکل ۹ نشان داده شده است، سه تصویر نما را انتخاب کردیم . زیرگراف (a) حقیقت پایه نمونه های پنجره را نشان می دهد. زیرگراف (ب) نتایج Mask R-CNN را نشان می دهد. زیرگراف (c) نتایج Mask R-CNN را با توجه فضایی RPN نشان می دهد. نمودار فرعی (d) نتایج Mask R-CNN را با RPN توجه فضایی و ماژول های رابطه نشان می دهد. نمونه های مختلف پنجره در رنگ های مختلف ارائه می شوند. خطاهای تقسیم بندی با مستطیل های قرمز مشخص می شوند.

شکل ۷ نتایج تشخیص خطا توسط Mask R-CNN را نشان می دهد. در مقایسه با حقیقت زمین، برخی از پنجره‌های نادرست شناسایی شده توسط Mask R-CNN در بالای نما وجود دارد. پس از افزودن مکانیزم توجه فضایی برای RPN، تعداد پنجره‌های شناسایی نادرست به یک کاهش می‌یابد. روش بهبودیافته با استفاده از ماژول های رابطه منجر به هیچ خطای تشخیصی نمی شود. همانطور که از شکل ۷ d مشاهده می شود، تمام خطاهای تشخیص حذف شده اند. چهار پنجره در قسمت پایین را نمی توان با هیچ یک از روش های مورد استفاده در آزمایش های ما شناسایی کرد.

شکل ۸ پنجره هایی را نشان می دهد که توسط Mask R-CNN در شرایط مختلف روشنایی شناسایی نشده اند. با استفاده از Mask R-CNN، تعدادی پنجره شناسایی نشده و یک پنجره نادرست در طبقه بالا و همکف نما وجود دارد. پس از اعمال مکانیزم توجه فضایی برای RPN، برخی از پنجره های شناسایی نشده را می توان به درستی شناسایی کرد، اما پنجره نادرست شناسایی شده همچنان وجود دارد. سپس با افزودن ماژول های رابطه به شبکه هد، تمامی پنجره های شناسایی نشده شناسایی شده و خطای تشخیص حذف شده است.

شکل ۹ نتایج روش های مختلف را در حضور انسدادهای بزرگ نشان می دهد. همانطور که در شکل ۹ الف نشان داده شده است، حقیقت زمین این نما یک حقیقت زمینی مشروح دستی برای برچسب های پشت پوشش گیاهی ارائه می دهد. در کادر قرمز شکل ۹ ب، تنها یک نمونه پنجره در پشت پوشش گیاهی توسط Mask R-CNN قابل شناسایی است. پس از افزودن ماژول های توجه فضایی و رابطه، دو نمونه پنجره دیگر به درستی شناسایی می شوند. با مقایسه پنجره های وسط مستطیل قرمز که با سه روش شناسایی شده اند، اندازه پنجره شناسایی شده با روش ما دقیق تر است.

۴٫۵٫ مقایسه با سایر روش های مبتنی بر توجه

در این بخش، ما یک مقایسه کمی با چهار روش مبتنی بر توجه برای تأیید سودمندی رویکرد پیشنهادی خود انجام می‌دهیم. ماژول‌های توجهی که برای مقایسه استفاده می‌کنیم شامل ماژول توجه بلوک کانولوشن (CBAM) [ ۴۰ ]، ماژول غیرمحلی (NL) [ ۴۱ ]، ماژول زمینه جهانی (GC) [ ۴۲ ] و ماژول ارتباط (RM) [ ۴۳ ] است. . جزئیات پیاده سازی همان مواردی است که در مقالات اصلی آنها وجود دارد. برای شبکه ای که Mask R-CNN + CBAM نامیده می شود، CBAM با هر بلوک باقی مانده در ResNet یکپارچه شده است [ ۴۴ ]. برای Mask R-CNN + NL، فقط یک ماژول غیرمحلی درست قبل از آخرین بلوک باقیمانده اضافه می شود. در ResNet معماری Mask R-CNN + GC بیانگر افزودن ماژول GC به تمام بلوک های باقیمانده است. ، ، و . در شبکه Mask R-CNN + RM، ماژول های رابطه پس از هر دو لایه کاملا متصل در شبکه اصلی Mask R-CNN اضافه می شوند.

میانگین دقت روش ما و سایر روش های مبتنی بر توجه در جدول ۵ نشان داده شده است. نمرات برتر به صورت پررنگ نشان داده شده است. در مقایسه با روش پایه (Mask R-CNN)، همه روش های مبتنی بر توجه می توانند نتایج بهتری به دست آورند. در همین حال، روش ما عملکرد بهتری نسبت به سایر روش‌های مبتنی بر توجه به جز تشخیص و تقسیم‌بندی پنجره‌های کوچک دارد. و ) و پنجره های بزرگ ( و ). نتایج نشان می‌دهد که روش ما برای تقسیم‌بندی نمونه اشیاء با اندازه‌های متوسط و مشابه مناسب‌تر است. عناصر نمای پنجره مانند برای این ویژگی مناسب هستند.

۴٫۶٫ مقایسه با سایر روش های استخراج پنجره

برای مقایسه روش ما با سایر روش‌های استخراج پنجره [ ۲۲ ، ۲۳ ، ۲۴ ، ۲۵ ، ۲۷ ]، روش پیشنهادی را در چندین مجموعه داده آموزش داده و ارزیابی کردیم: eTRIMS، ECP، CMP، Graz50، و ParisArtDeco. دقت پیکسل به عنوان یک متریک در این مطالعات قبلی استفاده شده است که می تواند از طریق معادله ( ۷ ) محاسبه شود.). True Positive (TP) به این معنی است که پیکسل ها به درستی به عنوان پنجره شناخته می شوند. منفی واقعی (TN) به این معنی است که پیکسل ها به درستی به عنوان نما شناخته می شوند. مثبت کاذب (FP) به این معنی است که پیکسل های متعلق به نماها به اشتباه به عنوان پنجره تشخیص داده می شوند. منفی کاذب (FN) به این معنی است که پیکسل های متعلق به پنجره ها به اشتباه به عنوان نما شناخته می شوند. مجموع TP و TN تقسیم بر تعداد تمام پیکسل ها نشان دهنده دقت پیکسل است. دقت پیکسل به صورت درصد بیان می شود. جدول ۶ دقت پیکسل روش های مختلف را نشان می دهد. نمرات برتر به صورت پررنگ نشان داده شده است. در اینجا، “-” نشان می دهد که نویسندگان آزمایش هایی را روی مجموعه داده مربوطه انجام نداده اند. دقت پیکسل روش ما با استفاده از نمونه های پنجره با آستانه اطمینان > 0.5 ارزیابی شد.

(۷)

نتایج جدول ۶ نشان می دهد که روش پیشنهادی از اکثر روش های دیگر بهتر عمل می کند. اگرچه روش ما بالاترین دقت را در مجموعه داده‌های eTRIMS و ECP به دست نمی‌آورد، مقادیر دقت پیکسل در مقایسه با بهترین نتایج تنها ۰٫۶% و ۰٫۴% کاهش می‌یابد.

۵٫ بحث

اکثر روش‌های فعلی مبتنی بر CNN فقط به بهینه‌سازی پنجره‌های جداگانه مربوط می‌شوند و مناطق فضایی یا روابط پنجره‌ها را نادیده می‌گیرند. در این مطالعه، ما معماری Mask R-CNN را با ادغام یک ماژول توجه فضایی و یک ماژول رابطه بهبود می‌دهیم و یک خط لوله جدید از تقسیم‌بندی نمونه برای پنجره‌ها ارائه می‌کنیم. با کمک توجه فضایی، RPN بهبودیافته قابلیت ایجاد پیشنهادهایی را به دست می آورد که اشیاء پنجره را پوشش می دهد. حذف پیشنهادات پس زمینه اضافی به وظایف آموزشی بیشتر در شبکه اصلی کمک خواهد کرد. از سوی دیگر، پس از ادغام ماژول رابطه در شبکه اصلی، معماری هد می تواند مجموعه ای از اشیاء پنجره را به طور همزمان از طریق تعامل بین ویژگی ظاهری و هندسه آنها پردازش کند. به این ترتیب، روابط پنجره ها را می توان در طول یادگیری مدل کرد. با این عملیات توجه، روش ما می‌تواند روابط فضایی بین پنجره‌ها را مدل‌سازی کند و به میانگین دقت بالاتری برای تشخیص و تقسیم‌بندی اشیا نسبت به Mask R-CNN اصلی دست یابد.۲۱ ] توسط ۳٫۳٪ و ۳٫۰٪.

به منظور ارزیابی نتایج خود، ما از دو منظر متفاوت مقایسه هایی انجام دادیم. ابتدا، به عنوان یک شبکه یکپارچه با ماژول های توجه، روش ما با چندین روش مبتنی بر توجه مقایسه شد، همانطور که در بخش ۴٫۵ نشان داده شده است. در مقاله‌های اصلی این ماژول‌های توجه، نویسندگان روش‌های خود را با Mask R-CNN [ ۲۱ ] در مجموعه داده مایکروسافت COCO مقایسه کردند. نتایج آزمایش بر روی مجموعه داده‌های تقسیم‌بندی نمونه پنجره ما، ارائه‌شده در جدول ۵ ، تمایل مشابه AP را مانند این مقالات اصلی نشان می‌دهد. این مزیت معماری شبکه ما را نیز ثابت می کند. دوم، در زمینه استخراج پنجره، اکثر روش ها از دقت پیکسل به عنوان معیاری برای ارزیابی نتایج خود استفاده می کنند. همانطور که در بخش ۴٫۶ نشان داده شده است، محققان شبکه های خود را بر روی مجموعه داده های مختلف آموزش و اعتبارسنجی کردند. سپس آنها دقت پیکسل را برای مجموعه داده های مختلف گزارش کردند. برای مقایسه با سایر روش‌های استخراج پنجره، شبکه خود را بر روی پنج مجموعه داده ارزیابی کردیم: eTRIMS، ECP، CMP، Graz50، و ParisArtDeco. دقت پیکسل روش ما و سایر روش ها در جدول ۶ نشان داده شده است. به جز eTRIMS و ECP، روش ما بهترین نتایج را در سایر مجموعه‌های داده به دست می‌آورد. در مجموعه داده‌های eTRIMS و ECP، نتایج روش ما هنوز رقابتی است. در مقایسه با سایر روش‌های استخراج پنجره که فقط شکل هر پنجره را بهینه می‌کنند، روش ما ابتدا مکان‌های فضایی و روابط پنجره‌ها را در نظر می‌گیرد. این مقایسه اثربخشی ماژول های فضایی و رابطه ای را اثبات می کند. ما همچنین شش مجموعه داده در دسترس عموم را استاندارد و به هم الحاق کردیم و ۸۲ تصویر جدید اضافه کردیم تا یک مجموعه داده تقسیم‌بندی نمونه ویندوز استاندارد در دسترس عموم ایجاد کنیم.

از آنجایی که روش ما فقط روی یک شی کلاس متمرکز بود، یک محدودیت این است که تشخیص پنجره ها از بالکن ها دشوار است. ما معتقدیم که تقسیم بندی نمونه اشیاء چند کلاسه، دقت استخراج پنجره را بهبود می بخشد. آزمایش‌های بیشتر با ماژول‌های توجه دیگر، مانند ماژول توجه کانال کارآمد (ECA) [ ۵۷ ] و توجه هماهنگ [ ۵۸ ] نیز بررسی خواهد شد. با این ماژول های توجه جدید، RPN بهبود یافته می تواند دقت استخراج پنجره را بیشتر بهبود بخشد.

۶٫ نتیجه گیری

ما یک شبکه یادگیری عمیق پایان به انتها برای تقسیم‌بندی نمونه ویندوز با استفاده از تصاویر نما پیشنهاد کردیم. به طور خاص، شبکه پیشنهادی ما با افزودن مکانیسم توجه فضایی و ماژول‌های ارتباط به شبکه یادگیری عمیق Mask R-CNN تعریف می‌شود. ابتدا یک نقشه توجه فضایی دوبعدی با نمرات شیئی RPN ضرب می شود. این عملیات برای تولید پروپوزال هایی که احتمال بیشتری برای پوشاندن اشیاء پنجره دارند مفید است. دوم، ماژول های رابطه پس از هر لایه کاملا متصل در شبکه اصلی تعبیه می شوند. ماژول های رابطه قدرت نمایش رابطه هندسی بین نمونه های پنجره را افزایش می دهند.

عملکرد روش پیشنهادی در مجموعه داده‌های تقسیم‌بندی نمونه پنجره ما آزمایش می‌شود. مجموعه داده جدید با ترکیب شش مجموعه داده در دسترس عموم و ۸۲ تصویر جدید توسط تیم ما ایجاد شده است. میانگین دقت روش ما برای تشخیص و تقسیم بندی اشیا ۵۶٫۴٪ و ۵۶٫۷٪ است که نسبت به Mask R-CNN 3.3٪ و ۳٫۰٪ بیشتر است. مقایسه کیفی نشان می‌دهد که با بهره‌گیری از قدرت بازنمایی در روابط فضایی، روش ما در برابر تغییرات بافت مقاوم است. ما همچنین مقایسه کمی با سایر روش‌های مبتنی بر توجه انجام دادیم. نتایج نشان می دهد که روش ما برای استخراج اشیاء با اندازه های متوسط و مشابه، مانند پنجره ها، مناسب تر است. علاوه بر این، برای مقایسه روش خود با سایر روش‌های استخراج پنجره، شبکه خود را در پنج مجموعه داده عمومی بازآموزی کردیم. و از دقت پیکسل به عنوان متریک استفاده کرد. نتایج مقایسه نشان می‌دهد که روش ما با استفاده از سه مجموعه داده بهترین عملکرد را به دست آورد و با استفاده از دو مجموعه داده دیگر در رتبه دوم قرار گرفت.

در کارهای آینده، ما قصد داریم شبکه را اصلاح کرده و مجموعه داده را برای انطباق با تقسیم‌بندی نمونه اشیاء چند کلاسه گسترش دهیم. عناصر نما، مانند پنجره‌ها، درها، مغازه‌ها و بالکن‌ها آشکارا با یکدیگر مرتبط و متقابل هستند. علاوه بر این، ماژول های توجه بیشتری مورد مطالعه قرار می گیرند و در شبکه ما ادغام می شوند تا نتایج بهتری به دست آوریم. علاوه بر این، مجموعه داده های موجود تنها شامل یک تصویر برای هر نما هستند. استفاده از تصاویر چند نما و ویژگی های سه بعدی نماها یکی از تلاش های احتمالی تحقیقاتی آینده در پیشبرد توسعه رویکرد تقسیم بندی نمونه خواهد بود.

منابع

نوهاوزن، ام. کوچ، سی. König، M. تشخیص پنجره مبتنی بر تصویر: یک نمای کلی. در مجموعه مقالات بیست و سومین کارگاه بین المللی گروه اروپایی برای محاسبات هوشمند در مهندسی، کراکوف، لهستان، ۲۹ ژوئن تا ۱ ژوئیه ۲۰۱۶٫ [ Google Scholar ]
گروگر، جی. Plümer, L. CityGML-مدل های شهری سه بعدی معنایی قابل تعامل. ISPRS J. Photogramm. از راه دور. Sens. ۲۰۱۲ ، ۷۱ ، ۱۲-۳۳٫ [ Google Scholar ] [ CrossRef ]
کیم، اس. زاده، PA; استاب فرنچ، اس. فروز، تی. Cavka، BT ارزیابی تأثیر اندازه، موقعیت و جهت پنجره بر بار انرژی ساختمان با استفاده از BIM. Procedia Eng. ۲۰۱۶ ، ۱۴۵ ، ۱۴۲۴-۱۴۳۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
امیرابراهیمی، س. رجبی فرد، ع. مندیس، پ. Ngo، T. چارچوبی برای ارزیابی آسیب سیل در مقیاس میکرو و تجسم برای یک ساختمان با استفاده از ادغام BIM-GIS. بین المللی جی دیجیت. زمین ۲۰۱۶ ، ۹ ، ۳۶۳-۳۸۶٫ [ Google Scholar ] [ CrossRef ]
پرز، اچ. Tah, JHM; موسوی، ع. یادگیری عمیق برای تشخیص عیوب ساختمان با استفاده از شبکه های عصبی کانولوشن. Sensors ۲۰۱۹ , ۱۹ , ۳۵۵۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
توفیق، س. نگی، بی. Benedek, C. HierarchyNet: طبقه بندی ساختمان های شهری مبتنی بر CNN سلسله مراتبی. Remote Sens. ۲۰۲۰ , ۱۲ , ۳۷۹۴٫ [ Google Scholar ] [ CrossRef ]
الشوا، م. بولاسال، اچ. لندز، تی. Grussenmeyer, P. اکتساب و استخراج خودکار عناصر نما در سایت های بزرگ از یک سیستم نقشه برداری موبایل لیزری کم هزینه. در مجموعه مقالات کارگاه ISPRS بازسازی سه بعدی مجازی و تجسم معماری های پیچیده، ترنتو، ایتالیا، ۲۵ تا ۲۸ فوریه ۲۰۰۹٫ [ Google Scholar ]
الگره، اف. Dellaert، F. یک رویکرد احتمالی به تفسیر معنایی نمای ساختمان. در مجموعه مقالات کارگاه بین المللی تکنیک های بینایی کاربردی در بازسازی مراکز شهر، لیسبون، پرتغال، ۲۵ تا ۲۷ اکتبر ۲۰۰۴٫ [ Google Scholar ]
مولر، پی. زنگ، جی. ونکا، پی. ون گول، ال. مدل‌سازی رویه‌ای نما مبتنی بر تصویر. ACM Trans. نمودار (TOG) ۲۰۰۷ ، ۲۶ ، ۸۵٫ [ Google Scholar ] [ CrossRef ]
علی، ح. سیفرت، سی. جیندال، ن. پالتا، ال. Paar, G. تشخیص پنجره در نما. در مجموعه مقالات چهاردهمین کنفرانس بین المللی تحلیل و پردازش تصویر، ICIAP 2007، مودنا، ایتالیا، ۱۰–۱۴ سپتامبر ۲۰۰۷٫ صص ۸۳۷-۸۴۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
رزنیک، س. مایر، اچ. مدل‌های شکل ضمنی، خود تشخیصی، و انتخاب مدل برای تفسیر نمای سه‌بعدی. فتوگرام فرنرکوند. Geoinf. ۲۰۰۸ ، ۳ ، ۱۸۷-۱۹۶٫ [ Google Scholar ]
سیمون، ال. تبول، او. کوتسوراکیس، پ. Paragios, N. کاوش تصادفی فضای رویه ای برای مدل سازی سه بعدی تک نمای ساختمان ها. بین المللی جی. کامپیوتر. Vis. ۲۰۱۱ ، ۹۳ ، ۲۵۳-۲۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کوهن، ا. شوینگ، AG; Pollefeys، M. تجزیه ساختاری کارآمد نماها با استفاده از برنامه نویسی پویا. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، کلمبوس، OH، ایالات متحده آمریکا، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ [ Google Scholar ] [ CrossRef ]
جامپانی، وی. گده، آر. Gehler، PV تقسیم بندی کارآمد نما با استفاده از زمینه خودکار. در مجموعه مقالات کنفرانس زمستانی IEEE 2015 در مورد کاربردهای بینایی کامپیوتری، WACV 2015، Waikoloa، HI، ایالات متحده آمریکا، ۵-۹ ژانویه ۲۰۱۵٫ صص ۱۰۳۸–۱۰۴۵٫ [ Google Scholar ] [ CrossRef ]
ماتیاس، م. مارتینوویچ، آ. Van Gool, L. ATLAS: رویکردی سه لایه برای تجزیه نما. بین المللی جی. کامپیوتر. Vis. ۲۰۱۶ ، ۱۱۸ ، ۲۲-۴۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لیو، دبلیو. وانگ، ز. لیو، ایکس. زنگ، ن. لیو، ی. السعدی، FE بررسی معماری شبکه های عصبی عمیق و کاربردهای آنها. محاسبات عصبی ۲۰۱۷ ، ۲۳۴ ، ۱۱-۲۶٫ [ Google Scholar ] [ CrossRef ]
موسوی، ع. اردبیلی، س. Varkonyi-Koczy، AR فهرست مدل های یادگیری عمیق. در مهندسی برای آینده پایدار ; Springer: Cham، سوئیس، ۲۰۱۹; ص ۲۰۲-۲۱۴٫ [ Google Scholar ] [ CrossRef ]
لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE Computer Society on Computer Vision and Pattern Recognition، بوستون، MA، ایالات متحده آمریکا، ۷ تا ۱۲ ژوئن ۲۰۱۵٫ صص ۳۴۳۱–۳۴۴۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
رونبرگر، او. فیشر، پی. Brox، T. U-net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر – MICCAI 2015 ; Springer: Cham, Switzerland, 2015; صص ۲۳۴-۲۴۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster R-CNN: به سمت تشخیص اشیاء در زمان واقعی با شبکه های پیشنهادی منطقه. Adv. عصبی Inf. روند. سیستم ۲۰۱۵ ، ۲۰۱۵ ، ۹۱-۹۹٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
او، ک. گیوکسری، جی. دلار، پی. Girshick, R. Mask R-CNN. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صفحات ۲۹۶۱-۲۹۶۹٫ [ Google Scholar ]
اشمیتز، ام. مایر، اچ. یک شبکه کانولوشن برای تقسیم بندی و تفسیر نمای معنایی. بین المللی قوس. فتوگرام از راه دور. حس اسپات. Inf. علمی -طاق ISPRS. ۲۰۱۶ ، ۴۱ ، ۷۰۹-۷۱۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لیو، اچ. ژانگ، جی. ژو، جی. Hoi, SC Deepfacade: یک رویکرد یادگیری عمیق برای تجزیه نما. در مجموعه مقالات کنفرانس مشترک بین المللی IJCAI در مورد هوش مصنوعی، ملبورن، استرالیا، ۱۹ تا ۲۵ اوت ۲۰۱۷؛ صص ۲۳۰۱–۲۳۰۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
فمینی، ج. پارا، WR; میترا، ن. Wonka, P. Facade Segmentation in the Wild. arXiv ۲۰۱۸ , arXiv:1805.08634. [ Google Scholar ]
لیو، اچ. خو، ی. ژانگ، جی. ژو، جی. لی، ی. Hoi، CS DeepFacade: یک رویکرد یادگیری عمیق برای تجزیه نما با اتلاف متقارن. IEEE Trans. چندتایی. ۲۰۲۰ ، ۲۲ ، ۳۱۵۳-۳۱۶۵٫ [ Google Scholar ] [ CrossRef ]
ما، دبلیو. ما، دبلیو. خو، اس. Zha، H. هرمی ALKNet برای تجزیه معنایی تصویر نمای ساختمان. IEEE Geosci. از راه دور. سنس لت. ۲۰۲۰ ، ۱۸ ، ۱۰۰۹-۱۰۱۳٫ [ Google Scholar ] [ CrossRef ]
لیسیدن؛ ژانگ، HX; لیو، جی ایکس؛ ژانگ، YQ; Zou، SC; Fang, YT Window Detection در نماها با استفاده از Heatmap Fusion. جی. کامپیوتر. علمی تکنولوژی ۲۰۲۰ ، ۳۵ ، ۹۰۰-۹۱۲٫ [ Google Scholar ] [ CrossRef ]
ما، دبلیو. Ma، W. تشخیص پنجره عمیق در صحنه های خیابان. KSII Trans. اینترنت Inf. سیستم (TIIS) ۲۰۲۰ ، ۱۴ ، ۸۵۵-۸۷۰٫ [ Google Scholar ]
وانگ، آر. فری، FP; Macfarlane, J. روشی برای تشخیص ویندوز از داده‌های لیدار موبایل. فتوگرام مهندس از راه دور. Sens. ۲۰۱۲ , ۷۸ , ۱۱۲۹-۱۱۴۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ذوالانواری، SI; Laefer، روش برش DF برای نمای منحنی و استخراج پنجره از ابرهای نقطه ای. ISPRS J. Photogramm. از راه دور. Sens. ۲۰۱۶ , ۱۱۹ , ۳۳۴-۳۴۶٫ [ Google Scholar ] [ CrossRef ]
ملیحی، س. Valadan Zoej، MJ; هان، م. مختارزاده، م. تشخیص پنجره از ابر نقطه فتوگرامتری مشتق از UAS با استفاده از فیلترینگ و سازمان ادراکی مبتنی بر چگالی. Remote Sens. ۲۰۱۸ , ۱۰ , ۱۳۲۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Xia، SB; وانگ، جداسازی نمای RS در ابرهای نقطه‌ای LiDAR مبتنی بر زمین بر اساس لبه‌ها و پنجره‌ها. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. ۲۰۱۹ , ۱۲ , ۱۰۴۱–۱۰۵۲٫ [ Google Scholar ] [ CrossRef ]
سان، ی. لی، اچ. Sun، L. تشخیص پنجره با استفاده از یک سطح منظم جهانی که از تصاویر مورب هواپیمای بدون سرنشین و ابرهای نقطه‌ای تنظیم شده است. J. Appl. Remote Sens. ۲۰۲۰ , ۱۴ , ۰۲۴۵۱۳٫ [ Google Scholar ] [ CrossRef ]
لیبه، بی. لئوناردیس، ا. شیله، ب. دسته بندی و تقسیم بندی شیء ترکیبی با یک مدل شکل ضمنی. در مجموعه مقالات کارگاه یادگیری آماری در بینایی کامپیوتر، ECCV 2004، پراگ، جمهوری چک، ۱۱-۱۴ مه ۲۰۰۴٫ جلد ۲، ص. ۷٫ [ Google Scholar ]
کریژفسکی، آ. سوتسکور، آی. هینتون، GE ImageNet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; Curran Associates, Inc.: New York, NY, USA, 2012; جلد ۲، ص ۱۰۹۷–۱۱۰۵٫ [ Google Scholar ]
فتح الله، ر. Vogiatzis، G. خط لوله یادگیری عمیق برای تقسیم بندی نمای معنایی. در مجموعه مقالات کنفرانس بینایی ماشین بریتانیا ۲۰۱۷، BMVC 2017، لندن، بریتانیا، ۴ تا ۷ سپتامبر ۲۰۱۷؛ صص ۱-۱۳٫ [ Google Scholar ] [ CrossRef ]
سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. در مجموعه مقالات سومین کنفرانس بین المللی در مورد بازنمایی های یادگیری، ICLR 2015، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، ۷ تا ۹ مه ۲۰۱۵٫ [ Google Scholar ]
Guo، MH; Xu، TX; لیو، جی جی. لیو، ZN; جیانگ، PT; مو، تی جی; ژانگ، SH; مارتین، آر.آر. چنگ، MM; هو، SM مکانیسم های توجه در بینایی کامپیوتر: یک بررسی. arXiv ۲۰۲۱ ، arXiv:2111.07624. [ Google Scholar ]
هو، جی. شن، ال. Sun, G. شبکه های فشار و تحریک. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صص ۷۱۳۲–۷۱۴۱٫ [ Google Scholar ]
وو، اس. پارک، جی. لی، جی. Kweon، IS CBAM: ماژول توجه بلوک کانولوشن. در کامپیوتر ویژن-ECCV 2018 ؛ Springer: Cham, Switzerland, 2018; صص ۳-۱۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
وانگ، ایکس. گیرشیک، آر. گوپتا، ا. او، K. شبکه های عصبی غیر محلی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صفحات ۷۷۹۴-۷۸۰۳٫ [ Google Scholar ]
کائو، ی. خو، جی. لین، اس. وی، اف. Hu, H. GCNet: شبکه‌های غیر محلی با شبکه‌های فشرده-تحریک و فراتر از آن ملاقات می‌کنند. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در کارگاه های آموزشی بینایی رایانه (ICCV)، سئول، کره، ۲۷ اکتبر تا ۲ نوامبر ۲۰۱۹٫ [ Google Scholar ]
متعجب.؛ گو، ج. ژانگ، ز. دای، جی. Wei, Y. شبکه های ارتباطی برای تشخیص شی. در مجموعه مقالات کنفرانس انجمن رایانه ای IEEE در مورد دید رایانه و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صص ۳۵۸۸-۳۵۹۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE Computer Society در مورد دید رایانه و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ دوره ۱۳۹۵، صص ۷۷۰–۷۷۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لین، TY; دلار، پی. گیرشیک، آر. او، ک. حریهاران، بی. Belongie, S. شبکه های هرمی را برای تشخیص اشیا مشخص کنید. در مجموعه مقالات سی امین کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، CVPR 2017، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۶؛ دوره ۱۳۹۶، صص ۹۳۶–۹۴۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
واسوانی، ع. Shazeer، N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، Ł. Polosukhin، I. توجه شما تمام چیزی است که نیاز دارید. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; Curran Associates, Inc.: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۷؛ صفحات ۵۹۹۹-۶۰۰۹٫ [ Google Scholar ]
وو، ی. کریلوف، آ. ماسا، اف. لو، WY; Girshick, R. Detectron2. ۲۰۱۹٫ در دسترس آنلاین: https://github.com/facebookresearch/detectron2 (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
دنگ، ج. دونگ، دبلیو. سوچر، آر. لی، ال جی; لی، ک. Fei-Fei, L. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو، میامی، FL، ایالات متحده آمریکا، ۲۰-۲۵ ژوئن ۲۰۰۹٫ صص ۲۴۸-۲۵۵٫ [ Google Scholar ]
لین، TY; مایر، م. بلنگی، اس. هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت کوکو: اشیاء مشترک در زمینه. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Cham, Switzerland, 2014; صص ۷۴۰-۷۵۵٫ [ Google Scholar ]
تایلچک، آر. Šára, R. الگوهای الگوی فضایی برای تشخیص اشیاء با ساختار منظم. در کنفرانس آلمان در مورد شناسایی الگوها ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۳; جلد ۸۱۴۲ LNCS، صص ۳۶۴–۳۷۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کورچ، اف. Förstner, W. eTRIMS پایگاه تصویری برای تفسیر تصاویر صحنه های ساخته دست بشر ; گزارش فنی؛ ۲۰۰۹; در دسترس آنلاین: http://www.ipb.uni-bonn.de/projects/etrims_db/ (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
Teboul, O. Ecole Centrale Paris Facades Database. در دسترس آنلاین: http://vision.mas.ecp.fr/Personnel/teboul/data.php (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
ریمنشنایدر، اچ. کریسپل، یو. تالر، دبلیو. دوناسر، م. هاومن، اس. فلنر، دی. بیشوف، اچ. شبکه های نامنظم برای تجزیه نماهای دستوری شکل پیچیده. در مجموعه مقالات کنفرانس انجمن کامپیوتر IEEE در مورد دید رایانه و تشخیص الگو، پراویدنس، RI، ایالات متحده آمریکا، ۱۶-۲۱ ژوئن ۲۰۱۲٫ صفحات ۱۶۴۰-۱۶۴۷٫ [ Google Scholar ] [ CrossRef ]
ریمنشنایدر، اچ. Bodis-Szomoru، A.; وایزنبرگ، جی. ون گول، ال. یادگیری محل طبقه بندی در تقسیم بندی معنایی چند نمای. در Computer Vision—Eccv 2014, Pt V ; Springer: Cham, Switzerland, 2014; جلد ۸۶۹۳، ص ۵۱۶–۵۳۲٫ [ Google Scholar ]
گده، آر. مارلت، آر. پاراگیوس، ن. مارلت، آر. یادگیری گرامرها برای تجزیه نما مخصوص معماری. بین المللی جی. کامپیوتر. Vis. ۲۰۱۶ ، ۱۱۷ ، ۲۹۰-۳۱۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
مارتینوویچ، آ. ماتیاس، م. وایزنبرگ، جی. Van Gool, L. رویکرد سه لایه برای تجزیه نما. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Berlin/Heidelberg، آلمان، ۲۰۱۲٫ [ Google Scholar ] [ CrossRef ]
وانگ، کیو. وو، بی. زو، پی. لی، پی. زو، دبلیو. Hu, Q. ECA-Net: توجه کانال کارآمد برای شبکه های عصبی پیچیده عمیق. arXiv ۲۰۲۰ ، arXiv:1910.03151. [ Google Scholar ]
هو، کیو. ژو، دی. Feng, J. توجه را برای طراحی کارآمد شبکه تلفن همراه هماهنگ کنید. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو، نشویل، TN، ایالات متحده، ۱۹ تا ۲۵ ژوئن ۲۰۲۱؛ صص ۱۳۷۱۳–۱۳۷۲۲٫ [ Google Scholar ]

شکل ۱٫ تقسیم بندی نمونه ویندوز از نما.

شکل ۲٫ خط لوله روش پیشنهادی.

شکل ۳٫ نمودار RPN با توجه فضایی.

شکل ۴٫ محاسبه ویژگی رابطه.

شکل ۵٫ نمودار سه نوع RPN با ماژول های توجه: ( a ) cls(AM)_reg; ( ب ) cls(AM)_reg(AM); ( ج ) AM_cls_reg.

شکل ۶٫ مقایسه AP بر روی تعداد روابط مختلف (واحد: %).

شکل ۷٫ نتایج تقسیم بندی پنجره نما ۱: ( الف ) حقیقت زمین نمونه های پنجره. ( ب ) نتیجه Mask R-CNN; ( ج ) نتیجه Mask R-CNN با توجه فضایی RPN. ( د ) نتیجه Mask R-CNN با توجه فضایی RPN و ماژول های رابطه.

شکل ۸٫ نتایج تقسیم بندی پنجره نما ۲: ( الف ) حقیقت زمین نمونه های پنجره. ( ب ) نتیجه Mask R-CNN; ( ج ) نتیجه Mask R-CNN با توجه فضایی RPN. ( د ) نتیجه Mask R-CNN با توجه فضایی RPN و ماژول های رابطه.

شکل ۹٫ نتایج تقسیم بندی پنجره نما ۳: ( الف ) حقیقت زمین نمونه های پنجره. ( ب ) نتیجه Mask R-CNN; ( ج ) نتیجه Mask R-CNN با توجه فضایی RPN. ( د ) نتیجه Mask R-CNN با توجه فضایی RPN و ماژول های رابطه.

هوش مکانی اتیم تحقیقاتی ونوس نصیرفام