کلید واژه ها:
پنجره ها ؛ تقسیم بندی نمونه ; توجه فضایی ؛ ماژول رابطه ; ماسک R-CNN
۱٫ مقدمه
-
ما یک ماژول توجه فضایی را به شبکه پیشنهادی منطقه (RPN) اضافه کردیم و از مکانیسمهای توجه مکانی و مکانی برای بهینهسازی امتیازات شیئی RPN استفاده کردیم.
-
ما ماژولهای رابطه را در شبکه اصلی Mask R-CNN و ویژگیهای ظاهری و هندسی یکپارچهای برای تشخیص پیشنهاد تعبیه کردیم.
-
مجموعه دادههای مختلف را استاندارد و به هم متصل کردیم و تعدادی تصویر جدید اضافه کردیم تا یک مجموعه داده تقسیمبندی نمونه جدید برای یک کلاس پنجره با ۱۲۰۰ تصویر حاشیهنویسی ایجاد کنیم.
۲٫ کارهای مرتبط
۳٫ روش شناسی
۳٫۱٫ معماری شبکه
۳٫۲٫ RPN با توجه فضایی
RPN توجه فضایی ما در شکل ۳ نشان داده شده است . یک ماژول توجه به عنوان یک شاخه جدید اضافه شده است. با توجه به نقشه ویژگی ورودی ، روش ما به طور متوالی یک نقشه توجه کانال ۱ بعدی ایجاد می کند و یک نقشه توجه فضایی دو بعدی . سپس نقشه توجه فضایی دوبعدی و نمرات شیئی شبکه طبقه بندی از طریق یک ضرب عنصری ادغام می شوند. فرآیند توجه کلی را می توان به صورت زیر خلاصه کرد:
که در آن ⊗ نشان دهنده ضرب عنصری است، نقشه ویژگی ورودی را نشان می دهد، نقشه ویژگی را پس از ضرب با توجه کانال نشان می دهد و نمرات شیئی شاخه طبقه بندی را نشان می دهد. در طی ضرب، مقادیر توجه بر این اساس پخش می شوند (کپی می شوند): مقادیر توجه کانال در امتداد بعد فضایی پخش می شود. و مقادیر توجه فضایی در امتداد بعد کانال با توجه به خروجی های زیرشبکه طبقه بندی پخش می شوند.
نقشه توجه کانال می تواند رابطه بین کانالی ویژگی ها را بیان کند. اطلاعات مکانی هر نقشه مشخصه به ترتیب با میانگین جهانی و عملیات ادغام حداکثر جهانی جمعآوری میشود و دو توصیفگر زمینه فضایی متفاوت ایجاد میکند: و . سپس هر دو توصیفگر به یک شبکه مشترک ارسال می شوند. شبکه مشترک از پرسپترون چندلایه (MLP) با دو لایه کاملاً متصل تشکیل شده است: و . پس از اعمال شبکه مشترک به هر توصیفگر، دو بردار ویژگی خروجی از طریق یک جمع بندی عنصری با هم ادغام می شوند تا نقشه توجه کانال ما تولید شود. . به طور خلاصه، توجه کانال به صورت زیر محاسبه می شود:
جایی که نشان دهنده تابع سیگموئید است. علاوه بر این، یک پرسپترون چندلایه را نشان میدهد که شامل دو لایه کاملاً متصل و یک تابع فعالسازی واحد خطی اصلاحشده (ReLU) است. اینجا، و به اشتراک گذاشتن وزن های یکسان برای هر دو ورودی. و به ترتیب میانگین جهانی و حداکثر تجمیع جهانی را نشان می دهد.
نقشه توجه فضایی رابطه بین فضایی ویژگی ها را نشان می دهد. برای محاسبه توجه فضایی، ابتدا عملیات ادغام میانگین و حداکثر ادغام را در امتداد محور کانال اعمال کرده و آنها را برای ایجاد یک توصیفگر ویژگی کارآمد به هم متصل می کنیم. . در توصیفگر ویژگی الحاقی، ما یک لایه پیچیدگی را برای ایجاد یک نقشه توجه فضایی اعمال می کنیم ، که محل تاکید یا سرکوب را رمزگذاری می کند. به طور خلاصه، توجه فضایی به صورت محاسبه می شود
جایی که نشان دهنده تابع سیگموئید است. یک عملیات پیچشی با اندازه فیلتر ۷ × ۷ را نشان می دهد. ترکیبی از نقشه های ویژگی را نشان می دهد. و میانگین و حداکثر هستند. ادغام در امتداد محور کانال
۳٫۳٫ شبکه اصلی با ماژول های ارتباط
۳٫۳٫۱٫ ماژول رابطه
پس از مجموع ویژگیهای رابطه محاسبه میشوند، همه ویژگیهای رابطه به هم پیوسته و با ویژگی ظاهر ورودی افزوده میشوند. از طریق یک جمع، همانطور که در معادله ( ۴ ) نشان داده شده است.
جایی که نشان دهنده ویژگی ظاهری n امین شیء است، نشان می دهد ویژگی رابطه n امین شیء، نشان دهنده الحاق نقشه های ویژگی، و نشان دهنده ویژگی ظاهری جدید پس از تکمیل شدن با ماژول های رابطه است.
۳٫۳٫۲٫ رابطه برای تقسیم بندی نمونه
معادله ( ۵ ) ساختار سر ۲FC را نشان می دهد. با توجه به ویژگی های RoI برای پیشنهاد n ، دو لایه FC با ابعاد ۱۰۲۴ اعمال می شود. سپس از لایه های خطی برای طبقه بندی نمونه استفاده می شود و رگرسیون جعبه مرزی .
معادله ( ۶ ) نحوه تعبیه ماژول های رابطه را نشان می دهد. ). از آنجایی که ماژولهای رابطه میتوانند ابعاد ویژگیهای ورودی و خروجی را حفظ کنند، میتوانند بعد از هر یک از لایههای FC استفاده شوند و برای تعداد دلخواه تکرار شوند. اینجا، و زمان های تکراری هر ماژول رابطه را نشان می دهد.
۴٫ آزمایشات
۴٫۱٫ مجموعه داده جدید ما
۴٫۲٫ سه نوع از RPN با ماژول های توجه
۴٫۳٫ مقایسه پارامترها برای ماژول های رابطه
۴٫۴٫ نتایج کیفی
۴٫۵٫ مقایسه با سایر روش های مبتنی بر توجه
۴٫۶٫ مقایسه با سایر روش های استخراج پنجره
برای مقایسه روش ما با سایر روشهای استخراج پنجره [ ۲۲ ، ۲۳ ، ۲۴ ، ۲۵ ، ۲۷ ]، روش پیشنهادی را در چندین مجموعه داده آموزش داده و ارزیابی کردیم: eTRIMS، ECP، CMP، Graz50، و ParisArtDeco. دقت پیکسل به عنوان یک متریک در این مطالعات قبلی استفاده شده است که می تواند از طریق معادله ( ۷ ) محاسبه شود.). True Positive (TP) به این معنی است که پیکسل ها به درستی به عنوان پنجره شناخته می شوند. منفی واقعی (TN) به این معنی است که پیکسل ها به درستی به عنوان نما شناخته می شوند. مثبت کاذب (FP) به این معنی است که پیکسل های متعلق به نماها به اشتباه به عنوان پنجره تشخیص داده می شوند. منفی کاذب (FN) به این معنی است که پیکسل های متعلق به پنجره ها به اشتباه به عنوان نما شناخته می شوند. مجموع TP و TN تقسیم بر تعداد تمام پیکسل ها نشان دهنده دقت پیکسل است. دقت پیکسل به صورت درصد بیان می شود. جدول ۶ دقت پیکسل روش های مختلف را نشان می دهد. نمرات برتر به صورت پررنگ نشان داده شده است. در اینجا، “-” نشان می دهد که نویسندگان آزمایش هایی را روی مجموعه داده مربوطه انجام نداده اند. دقت پیکسل روش ما با استفاده از نمونه های پنجره با آستانه اطمینان > 0.5 ارزیابی شد.
۵٫ بحث
۶٫ نتیجه گیری
منابع
- نوهاوزن، ام. کوچ، سی. König، M. تشخیص پنجره مبتنی بر تصویر: یک نمای کلی. در مجموعه مقالات بیست و سومین کارگاه بین المللی گروه اروپایی برای محاسبات هوشمند در مهندسی، کراکوف، لهستان، ۲۹ ژوئن تا ۱ ژوئیه ۲۰۱۶٫ [ Google Scholar ]
- گروگر، جی. Plümer, L. CityGML-مدل های شهری سه بعدی معنایی قابل تعامل. ISPRS J. Photogramm. از راه دور. Sens. ۲۰۱۲ ، ۷۱ ، ۱۲-۳۳٫ [ Google Scholar ] [ CrossRef ]
- کیم، اس. زاده، PA; استاب فرنچ، اس. فروز، تی. Cavka، BT ارزیابی تأثیر اندازه، موقعیت و جهت پنجره بر بار انرژی ساختمان با استفاده از BIM. Procedia Eng. ۲۰۱۶ ، ۱۴۵ ، ۱۴۲۴-۱۴۳۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- امیرابراهیمی، س. رجبی فرد، ع. مندیس، پ. Ngo، T. چارچوبی برای ارزیابی آسیب سیل در مقیاس میکرو و تجسم برای یک ساختمان با استفاده از ادغام BIM-GIS. بین المللی جی دیجیت. زمین ۲۰۱۶ ، ۹ ، ۳۶۳-۳۸۶٫ [ Google Scholar ] [ CrossRef ]
- پرز، اچ. Tah, JHM; موسوی، ع. یادگیری عمیق برای تشخیص عیوب ساختمان با استفاده از شبکه های عصبی کانولوشن. Sensors ۲۰۱۹ , ۱۹ , ۳۵۵۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- توفیق، س. نگی، بی. Benedek, C. HierarchyNet: طبقه بندی ساختمان های شهری مبتنی بر CNN سلسله مراتبی. Remote Sens. ۲۰۲۰ , ۱۲ , ۳۷۹۴٫ [ Google Scholar ] [ CrossRef ]
- الشوا، م. بولاسال، اچ. لندز، تی. Grussenmeyer, P. اکتساب و استخراج خودکار عناصر نما در سایت های بزرگ از یک سیستم نقشه برداری موبایل لیزری کم هزینه. در مجموعه مقالات کارگاه ISPRS بازسازی سه بعدی مجازی و تجسم معماری های پیچیده، ترنتو، ایتالیا، ۲۵ تا ۲۸ فوریه ۲۰۰۹٫ [ Google Scholar ]
- الگره، اف. Dellaert، F. یک رویکرد احتمالی به تفسیر معنایی نمای ساختمان. در مجموعه مقالات کارگاه بین المللی تکنیک های بینایی کاربردی در بازسازی مراکز شهر، لیسبون، پرتغال، ۲۵ تا ۲۷ اکتبر ۲۰۰۴٫ [ Google Scholar ]
- مولر، پی. زنگ، جی. ونکا، پی. ون گول، ال. مدلسازی رویهای نما مبتنی بر تصویر. ACM Trans. نمودار (TOG) ۲۰۰۷ ، ۲۶ ، ۸۵٫ [ Google Scholar ] [ CrossRef ]
- علی، ح. سیفرت، سی. جیندال، ن. پالتا، ال. Paar, G. تشخیص پنجره در نما. در مجموعه مقالات چهاردهمین کنفرانس بین المللی تحلیل و پردازش تصویر، ICIAP 2007، مودنا، ایتالیا، ۱۰–۱۴ سپتامبر ۲۰۰۷٫ صص ۸۳۷-۸۴۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- رزنیک، س. مایر، اچ. مدلهای شکل ضمنی، خود تشخیصی، و انتخاب مدل برای تفسیر نمای سهبعدی. فتوگرام فرنرکوند. Geoinf. ۲۰۰۸ ، ۳ ، ۱۸۷-۱۹۶٫ [ Google Scholar ]
- سیمون، ال. تبول، او. کوتسوراکیس، پ. Paragios, N. کاوش تصادفی فضای رویه ای برای مدل سازی سه بعدی تک نمای ساختمان ها. بین المللی جی. کامپیوتر. Vis. ۲۰۱۱ ، ۹۳ ، ۲۵۳-۲۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کوهن، ا. شوینگ، AG; Pollefeys، M. تجزیه ساختاری کارآمد نماها با استفاده از برنامه نویسی پویا. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، کلمبوس، OH، ایالات متحده آمریکا، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ [ Google Scholar ] [ CrossRef ]
- جامپانی، وی. گده، آر. Gehler، PV تقسیم بندی کارآمد نما با استفاده از زمینه خودکار. در مجموعه مقالات کنفرانس زمستانی IEEE 2015 در مورد کاربردهای بینایی کامپیوتری، WACV 2015، Waikoloa، HI، ایالات متحده آمریکا، ۵-۹ ژانویه ۲۰۱۵٫ صص ۱۰۳۸–۱۰۴۵٫ [ Google Scholar ] [ CrossRef ]
- ماتیاس، م. مارتینوویچ، آ. Van Gool, L. ATLAS: رویکردی سه لایه برای تجزیه نما. بین المللی جی. کامپیوتر. Vis. ۲۰۱۶ ، ۱۱۸ ، ۲۲-۴۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لیو، دبلیو. وانگ، ز. لیو، ایکس. زنگ، ن. لیو، ی. السعدی، FE بررسی معماری شبکه های عصبی عمیق و کاربردهای آنها. محاسبات عصبی ۲۰۱۷ ، ۲۳۴ ، ۱۱-۲۶٫ [ Google Scholar ] [ CrossRef ]
- موسوی، ع. اردبیلی، س. Varkonyi-Koczy، AR فهرست مدل های یادگیری عمیق. در مهندسی برای آینده پایدار ; Springer: Cham، سوئیس، ۲۰۱۹; ص ۲۰۲-۲۱۴٫ [ Google Scholar ] [ CrossRef ]
- لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE Computer Society on Computer Vision and Pattern Recognition، بوستون، MA، ایالات متحده آمریکا، ۷ تا ۱۲ ژوئن ۲۰۱۵٫ صص ۳۴۳۱–۳۴۴۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- رونبرگر، او. فیشر، پی. Brox، T. U-net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر – MICCAI 2015 ; Springer: Cham, Switzerland, 2015; صص ۲۳۴-۲۴۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster R-CNN: به سمت تشخیص اشیاء در زمان واقعی با شبکه های پیشنهادی منطقه. Adv. عصبی Inf. روند. سیستم ۲۰۱۵ ، ۲۰۱۵ ، ۹۱-۹۹٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
- او، ک. گیوکسری، جی. دلار، پی. Girshick, R. Mask R-CNN. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صفحات ۲۹۶۱-۲۹۶۹٫ [ Google Scholar ]
- اشمیتز، ام. مایر، اچ. یک شبکه کانولوشن برای تقسیم بندی و تفسیر نمای معنایی. بین المللی قوس. فتوگرام از راه دور. حس اسپات. Inf. علمی -طاق ISPRS. ۲۰۱۶ ، ۴۱ ، ۷۰۹-۷۱۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لیو، اچ. ژانگ، جی. ژو، جی. Hoi, SC Deepfacade: یک رویکرد یادگیری عمیق برای تجزیه نما. در مجموعه مقالات کنفرانس مشترک بین المللی IJCAI در مورد هوش مصنوعی، ملبورن، استرالیا، ۱۹ تا ۲۵ اوت ۲۰۱۷؛ صص ۲۳۰۱–۲۳۰۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فمینی، ج. پارا، WR; میترا، ن. Wonka, P. Facade Segmentation in the Wild. arXiv ۲۰۱۸ , arXiv:1805.08634. [ Google Scholar ]
- لیو، اچ. خو، ی. ژانگ، جی. ژو، جی. لی، ی. Hoi، CS DeepFacade: یک رویکرد یادگیری عمیق برای تجزیه نما با اتلاف متقارن. IEEE Trans. چندتایی. ۲۰۲۰ ، ۲۲ ، ۳۱۵۳-۳۱۶۵٫ [ Google Scholar ] [ CrossRef ]
- ما، دبلیو. ما، دبلیو. خو، اس. Zha، H. هرمی ALKNet برای تجزیه معنایی تصویر نمای ساختمان. IEEE Geosci. از راه دور. سنس لت. ۲۰۲۰ ، ۱۸ ، ۱۰۰۹-۱۰۱۳٫ [ Google Scholar ] [ CrossRef ]
- لیسیدن؛ ژانگ، HX; لیو، جی ایکس؛ ژانگ، YQ; Zou، SC; Fang, YT Window Detection در نماها با استفاده از Heatmap Fusion. جی. کامپیوتر. علمی تکنولوژی ۲۰۲۰ ، ۳۵ ، ۹۰۰-۹۱۲٫ [ Google Scholar ] [ CrossRef ]
- ما، دبلیو. Ma، W. تشخیص پنجره عمیق در صحنه های خیابان. KSII Trans. اینترنت Inf. سیستم (TIIS) ۲۰۲۰ ، ۱۴ ، ۸۵۵-۸۷۰٫ [ Google Scholar ]
- وانگ، آر. فری، FP; Macfarlane, J. روشی برای تشخیص ویندوز از دادههای لیدار موبایل. فتوگرام مهندس از راه دور. Sens. ۲۰۱۲ , ۷۸ , ۱۱۲۹-۱۱۴۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ذوالانواری، SI; Laefer، روش برش DF برای نمای منحنی و استخراج پنجره از ابرهای نقطه ای. ISPRS J. Photogramm. از راه دور. Sens. ۲۰۱۶ , ۱۱۹ , ۳۳۴-۳۴۶٫ [ Google Scholar ] [ CrossRef ]
- ملیحی، س. Valadan Zoej، MJ; هان، م. مختارزاده، م. تشخیص پنجره از ابر نقطه فتوگرامتری مشتق از UAS با استفاده از فیلترینگ و سازمان ادراکی مبتنی بر چگالی. Remote Sens. ۲۰۱۸ , ۱۰ , ۱۳۲۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- Xia، SB; وانگ، جداسازی نمای RS در ابرهای نقطهای LiDAR مبتنی بر زمین بر اساس لبهها و پنجرهها. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. ۲۰۱۹ , ۱۲ , ۱۰۴۱–۱۰۵۲٫ [ Google Scholar ] [ CrossRef ]
- سان، ی. لی، اچ. Sun، L. تشخیص پنجره با استفاده از یک سطح منظم جهانی که از تصاویر مورب هواپیمای بدون سرنشین و ابرهای نقطهای تنظیم شده است. J. Appl. Remote Sens. ۲۰۲۰ , ۱۴ , ۰۲۴۵۱۳٫ [ Google Scholar ] [ CrossRef ]
- لیبه، بی. لئوناردیس، ا. شیله، ب. دسته بندی و تقسیم بندی شیء ترکیبی با یک مدل شکل ضمنی. در مجموعه مقالات کارگاه یادگیری آماری در بینایی کامپیوتر، ECCV 2004، پراگ، جمهوری چک، ۱۱-۱۴ مه ۲۰۰۴٫ جلد ۲، ص. ۷٫ [ Google Scholar ]
- کریژفسکی، آ. سوتسکور، آی. هینتون، GE ImageNet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; Curran Associates, Inc.: New York, NY, USA, 2012; جلد ۲، ص ۱۰۹۷–۱۱۰۵٫ [ Google Scholar ]
- فتح الله، ر. Vogiatzis، G. خط لوله یادگیری عمیق برای تقسیم بندی نمای معنایی. در مجموعه مقالات کنفرانس بینایی ماشین بریتانیا ۲۰۱۷، BMVC 2017، لندن، بریتانیا، ۴ تا ۷ سپتامبر ۲۰۱۷؛ صص ۱-۱۳٫ [ Google Scholar ] [ CrossRef ]
- سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. در مجموعه مقالات سومین کنفرانس بین المللی در مورد بازنمایی های یادگیری، ICLR 2015، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، ۷ تا ۹ مه ۲۰۱۵٫ [ Google Scholar ]
- Guo، MH; Xu، TX; لیو، جی جی. لیو، ZN; جیانگ، PT; مو، تی جی; ژانگ، SH; مارتین، آر.آر. چنگ، MM; هو، SM مکانیسم های توجه در بینایی کامپیوتر: یک بررسی. arXiv ۲۰۲۱ ، arXiv:2111.07624. [ Google Scholar ]
- هو، جی. شن، ال. Sun, G. شبکه های فشار و تحریک. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صص ۷۱۳۲–۷۱۴۱٫ [ Google Scholar ]
- وو، اس. پارک، جی. لی، جی. Kweon، IS CBAM: ماژول توجه بلوک کانولوشن. در کامپیوتر ویژن-ECCV 2018 ؛ Springer: Cham, Switzerland, 2018; صص ۳-۱۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- وانگ، ایکس. گیرشیک، آر. گوپتا، ا. او، K. شبکه های عصبی غیر محلی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صفحات ۷۷۹۴-۷۸۰۳٫ [ Google Scholar ]
- کائو، ی. خو، جی. لین، اس. وی، اف. Hu, H. GCNet: شبکههای غیر محلی با شبکههای فشرده-تحریک و فراتر از آن ملاقات میکنند. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در کارگاه های آموزشی بینایی رایانه (ICCV)، سئول، کره، ۲۷ اکتبر تا ۲ نوامبر ۲۰۱۹٫ [ Google Scholar ]
- متعجب.؛ گو، ج. ژانگ، ز. دای، جی. Wei, Y. شبکه های ارتباطی برای تشخیص شی. در مجموعه مقالات کنفرانس انجمن رایانه ای IEEE در مورد دید رایانه و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ صص ۳۵۸۸-۳۵۹۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE Computer Society در مورد دید رایانه و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ دوره ۱۳۹۵، صص ۷۷۰–۷۷۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لین، TY; دلار، پی. گیرشیک، آر. او، ک. حریهاران، بی. Belongie, S. شبکه های هرمی را برای تشخیص اشیا مشخص کنید. در مجموعه مقالات سی امین کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، CVPR 2017، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۶؛ دوره ۱۳۹۶، صص ۹۳۶–۹۴۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- واسوانی، ع. Shazeer، N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، Ł. Polosukhin، I. توجه شما تمام چیزی است که نیاز دارید. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; Curran Associates, Inc.: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۷؛ صفحات ۵۹۹۹-۶۰۰۹٫ [ Google Scholar ]
- وو، ی. کریلوف، آ. ماسا، اف. لو، WY; Girshick, R. Detectron2. ۲۰۱۹٫ در دسترس آنلاین: https://github.com/facebookresearch/detectron2 (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
- دنگ، ج. دونگ، دبلیو. سوچر، آر. لی، ال جی; لی، ک. Fei-Fei, L. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو، میامی، FL، ایالات متحده آمریکا، ۲۰-۲۵ ژوئن ۲۰۰۹٫ صص ۲۴۸-۲۵۵٫ [ Google Scholar ]
- لین، TY; مایر، م. بلنگی، اس. هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت کوکو: اشیاء مشترک در زمینه. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Cham, Switzerland, 2014; صص ۷۴۰-۷۵۵٫ [ Google Scholar ]
- تایلچک، آر. Šára, R. الگوهای الگوی فضایی برای تشخیص اشیاء با ساختار منظم. در کنفرانس آلمان در مورد شناسایی الگوها ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۳; جلد ۸۱۴۲ LNCS، صص ۳۶۴–۳۷۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کورچ، اف. Förstner, W. eTRIMS پایگاه تصویری برای تفسیر تصاویر صحنه های ساخته دست بشر ; گزارش فنی؛ ۲۰۰۹; در دسترس آنلاین: http://www.ipb.uni-bonn.de/projects/etrims_db/ (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
- Teboul, O. Ecole Centrale Paris Facades Database. در دسترس آنلاین: http://vision.mas.ecp.fr/Personnel/teboul/data.php (در ۲۹ دسامبر ۲۰۲۱ قابل دسترسی است).
- ریمنشنایدر، اچ. کریسپل، یو. تالر، دبلیو. دوناسر، م. هاومن، اس. فلنر، دی. بیشوف، اچ. شبکه های نامنظم برای تجزیه نماهای دستوری شکل پیچیده. در مجموعه مقالات کنفرانس انجمن کامپیوتر IEEE در مورد دید رایانه و تشخیص الگو، پراویدنس، RI، ایالات متحده آمریکا، ۱۶-۲۱ ژوئن ۲۰۱۲٫ صفحات ۱۶۴۰-۱۶۴۷٫ [ Google Scholar ] [ CrossRef ]
- ریمنشنایدر، اچ. Bodis-Szomoru، A.; وایزنبرگ، جی. ون گول، ال. یادگیری محل طبقه بندی در تقسیم بندی معنایی چند نمای. در Computer Vision—Eccv 2014, Pt V ; Springer: Cham, Switzerland, 2014; جلد ۸۶۹۳، ص ۵۱۶–۵۳۲٫ [ Google Scholar ]
- گده، آر. مارلت، آر. پاراگیوس، ن. مارلت، آر. یادگیری گرامرها برای تجزیه نما مخصوص معماری. بین المللی جی. کامپیوتر. Vis. ۲۰۱۶ ، ۱۱۷ ، ۲۹۰-۳۱۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- مارتینوویچ، آ. ماتیاس، م. وایزنبرگ، جی. Van Gool, L. رویکرد سه لایه برای تجزیه نما. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Berlin/Heidelberg، آلمان، ۲۰۱۲٫ [ Google Scholar ] [ CrossRef ]
- وانگ، کیو. وو، بی. زو، پی. لی، پی. زو، دبلیو. Hu, Q. ECA-Net: توجه کانال کارآمد برای شبکه های عصبی پیچیده عمیق. arXiv ۲۰۲۰ ، arXiv:1910.03151. [ Google Scholar ]
- هو، کیو. ژو، دی. Feng, J. توجه را برای طراحی کارآمد شبکه تلفن همراه هماهنگ کنید. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو، نشویل، TN، ایالات متحده، ۱۹ تا ۲۵ ژوئن ۲۰۲۱؛ صص ۱۳۷۱۳–۱۳۷۲۲٫ [ Google Scholar ]