RepDarkNet: یک آشکارساز چند شاخه برای تشخیص اهداف کوچک در تصاویر سنجش از راه دور

سال‌های اخیر شاهد پیشرفت سریع در مأموریت‌های شناسایی هدف بوده‌ایم، در حالی که اهداف کوچک، توزیع هدف متراکم و انسداد سایه همچنان مانع از پیشرفت در تشخیص اهداف کوچک مانند اتومبیل‌ها در تصاویر سنجش از دور می‌شوند. برای رفع این نقص، ما در اینجا یک شبکه استخراج ویژگی ستون فقرات به نام “RepDarkNet” پیشنهاد می کنیم که چندین لایه کانولوشن را به CSPDarkNet53 اضافه می کند. RepDarkNet بطور قابل توجهی دقت کلی شبکه را بدون افزایش زمان استنتاج بهبود می بخشد. علاوه بر این، ما یک آشکارساز چند لایه ای را پیشنهاد می کنیم که به طور قابل توجهی توانایی شبکه را برای شناسایی اهداف کوچک بهبود می بخشد. در نهایت، یک شبکه فیوژن ویژگی برای بهبود بیشتر عملکرد الگوریتم در AP پیشنهاد شده است@۰٫۷۵ مورد. آزمایش‌ها نشان می‌دهند که روش پیشنهادی به‌طور چشمگیری دقت تشخیص را بهبود می‌بخشد، به AP = ۷۵٫۵۳٪ برای مجموعه داده خودرو Dior و mAP = ۸۴٫۳٪ برای مجموعه داده Dior، که هر دو از سطح پیشرفته‌تر فراتر می‌روند. در نهایت، ما مجموعه ای از استراتژی های بهبود را ارائه می کنیم که اقدامات بهبود ما را توجیه می کند.

کلید واژه ها:

یادگیری عمیق ؛ شبکه عصبی کانولوشنال ; شبکه ستون فقرات ; شناسایی هدف ؛ تصاویر سنجش از دور

۱٫ مقدمه

یک کار اساسی در بینایی کامپیوتری، تشخیص هدف است که ناحیه مورد نظر در تصویر ورودی را در یک کادر محدود قاب می‌کند. با ادامه پیشرفت فناوری فضایی، تصاویر سنجش از راه دور با وضوح فوق العاده اهمیت فزاینده ای پیدا می کنند. با این حال، تشخیص هدف در تصویربرداری سنجش از دور همچنان یک چالش بزرگ است و بنابراین توجه تحقیقاتی فزاینده ای را به خود جلب می کند. با توجه به باندهای مختلف تصویربرداری، سنجش از راه دور را می توان به سنجش از راه دور نوری، سنجش از راه دور مادون قرمز، SAR (رادار دیافراگم مصنوعی) و دسته های دیگر تقسیم کرد. تشخیص هدف در تصاویر سنجش از دور نوری نقش مهمی در طیف وسیعی از کاربردها مانند پایش محیطی، تشخیص خطرات زمین‌شناسی، نقشه‌برداری کاربری/پوشش زمین (LULC)، به‌روزرسانی سیستم اطلاعات جغرافیایی (GIS)، کشاورزی دقیق،۱ ].
در تصویربرداری سنجش از دور نوری، اهداف معمولاً به دلیل تفاوت در نماهای بالای سر، جهت گیری های مختلفی دارند. بنابراین، اهداف در تصاویر سنجش از راه دور نوری، تعداد کمی از پیکسل‌های هدف را مصرف می‌کنند که به طور گسترده در جهات مختلف توزیع شده‌اند، و باعث می‌شوند به راحتی تحت تأثیر محیط اطراف قرار گیرند. برای مثال، همانطور که در شکل ۱ نشان داده شده است، وسایل نقلیه در تصاویر سنجش از راه دور نوری اغلب توسط سایه ها پنهان می شوند . این عوامل کار دشوار تشخیص هدف در تصاویر سنجش از دور نوری را به یک اولویت تحقیقاتی تبدیل می کند.
در چند سال اخیر، افزایش یادگیری عمیق کمک زیادی به توسعه تشخیص هدف کرده است. نتایج خوبی از یک سری الگوریتم های قدرتمند تشخیص هدف، مانند RCNN [ ۲ ]، Fast RCNN [ ۳ ]، Faster RCNN [ ۴ ]، SSD [ ۵ ]، YOLO [ ۶ ، ۷ ] و ResNet [ ۸ ] به دست آمده است. ]. با این حال، عملکرد این الگوریتم‌ها هنگام اعمال تصویربرداری هوایی رضایت‌بخش نیست.
در بسیاری از مدل‌های شبکه کانولوشن، شبکه ستون فقرات اغلب برای استخراج ویژگی‌های هدف، مانند رنگ، بافت و مقیاس استفاده می‌شود. شبکه ستون فقرات می‌تواند چندین ترکیب از اندازه‌های میدان حسی و گام‌های مرکزی را برای برآوردن نیازهای تشخیص هدف مقیاس‌ها و کلاس‌های مختلف فراهم کند [ ۹ ]. برخی از شبکه های ستون فقرات که معمولاً برای کارهای مختلف بینایی رایانه استفاده می شوند عبارتند از VGG [ ۱۰ ]، ResNet [ ۸ ]، MobileNet [ ۱۱ ، ۱۲ ، ۱۳ ] و DarkNet [ ۶ ، ۷ ].
برای شناسایی اهداف کوچک، شبکه ستون فقرات نقش مهمی ایفا می کند. یک شبکه ستون فقرات خوب اطلاعات ویژگی های بیشتری را استخراج می کند، اما استخراج اطلاعات ویژگی از اهداف کوچک دشوارتر است. با این حال، در تصویربرداری سنجش از دور نوری، اهداف خودرو ممکن است کمتر از ۱۰ پیکسل به دلیل زاویه شلیک مصرف کنند. برای شناسایی آن اهداف در تصاویر سنجش از دور نوری، گزاره‌های زیر را مطرح کردیم:
۱٫
تحت تأثیر RepVgg [ ۱۴ ]، ما یک شبکه ستون فقرات به نام «RepDarkNet» پیشنهاد کردیم که دقت آموزش و سرعت تشخیص را ترکیب می‌کند. آزمایش‌ها نشان می‌دهند که RepDarkNet در مقایسه با YOLOv3 و YOLOv4 با سبک DarkNet به‌عنوان ستون فقرات، هنگام اعمال بر مجموعه داده‌های Dior بهتر عمل می‌کند.
۲٫
ما یک شبکه همگرای چندلایه برای اهداف کوچک در تصاویر سنجش از دور نوری پیشنهاد کردیم. این شبکه شامل شبکه‌های تشخیص چند لایه و ویژگی فیوژن است.
۳٫
علاوه بر این، ورودی بزرگتر و GIoU [ ۱۵ ] برای بهبود تشخیص اهداف بسیار کوچک استفاده شد و به طور جداگانه با اعمال آنها بر روی مجموعه داده Dior-vehicle آزمایش شد.
ادامه این مقاله به شرح زیر سازماندهی شده است: بخش ۱ تحقیقات مرتبط در مورد تشخیص در تصاویر سنجش از دور نوری را معرفی می کند. بخش ۲ روش پیشنهادی برای شناسایی اهداف کوچک را تشریح می کند. بخش ۳ طرح آزمایشی و جزئیات آزمایشی را تشریح می کند و بخش ۴ نتایج تجربی و تجزیه و تحلیل را شرح می دهد. در نهایت، ما این مطالعه را در بخش ۵ نتیجه می‌گیریم .

۲٫ کارهای مرتبط

معمولاً از روش تشخیص هدف جعبه مرزی افقی (HBB) برای صحنه های عمومی و برای تشخیص هدف سنجش از دور نوری استفاده می شود. رابی و همکاران [ ۹ ] از GAN (شبکه های متخاصم مولد) برای تبدیل تصاویر به تصاویر با وضوح فوق العاده و استخراج اطلاعات ویژگی از تصاویر برای بهبود تشخیص اهداف کوچک استفاده کرد. ژانگ و همکاران [ ۱۶ ] یک شبکه عصبی کانولوشنال قوی سلسله مراتبی (CNN) را پیشنهاد کرد و یک مجموعه داده تشخیص هدف با وضوح بالا به نام HRSSD ساخت. آدام و همکاران [ ۱۷ ] YOLT را پیشنهاد کرد که تصاویر ماهواره‌ای با اندازه دلخواه را با سرعتی بیش از ۰٫۵ کیلومتر بر ثانیه ارزیابی می‌کند و اهداف کوچک (۵ پیکسل) را با وضوح بالا تعیین می‌کند.
تصاویر سنجش از راه دور نوری شامل اهدافی با توزیع متراکم جهت گیری های دلخواه است. بنابراین، اهداف مبتنی بر HBB ممکن است به طور قابل توجهی همپوشانی داشته باشند. جعبه های براکتی جهت دار اغلب برای شناسایی اهداف در حال چرخش هنگام مشخص کردن اهداف در تصاویر هوایی استفاده می شوند. دینگ و همکاران [ ۱۸ ] یک یادگیرنده چرخشی منطقه مورد علاقه را برای تبدیل مناطق افقی مورد علاقه به مناطق چرخشی مورد علاقه پیشنهاد کرد. بر اساس مناطق حساس به چرخش، یک ماژول هم ترازی منطقه حساس به موقعیت چرخش (RPS-RoI-Align) برای استخراج ویژگی‌های تغییرناپذیر چرخش از مناطق حساس به چرخش و در نتیجه تسهیل طبقه‌بندی و رگرسیون بعدی پیشنهاد شد. یانگ و همکاران [ ۱۹] یک آشکارساز چرخشی چند کلاسه SCRDet برای اهداف کوچک، با جهت گیری تصادفی و به شدت توزیع شده در تصاویر هوایی پیشنهاد کرد، که حساسیت به اهداف کوچک را از طریق یک شبکه همجوشی نمونه‌برداری که ویژگی‌های چند لایه را با نمونه‌برداری لنگر ترکیب می‌کند، بهبود می‌بخشد. در نهایت، ژو و همکاران. [ ۲۰ ] یک آشکارساز هدف سنجش از دور نوری با مختصات قطبی بدون لنگر (P-RSDet) پیشنهاد کرد که دقت تشخیص رقابتی را با استفاده از یک مدل نمایش هدف ساده‌تر و پارامترهای رگرسیون کمتر فراهم می‌کند.
در مورد وسایل نقلیه در تصاویر سنجش از دور نوری، محققان متعددی ویژگی‌های اهداف خودرو را بررسی کرده‌اند. اودبرت و همکاران [ ۲۱ ] یک شبکه عمیق و کاملاً پیچیده در ISPRS Potsdam و مجموعه داده‌های NZAM/ONERA کرایست‌چرچ آموزش داد و از نمودار معنایی آموخته‌شده برای استخراج بخش‌های دقیق خودرو استفاده کرد، در نتیجه وسایل نقلیه را با استخراج ساده قطعات متصل شناسایی کرد. ژانگ و همکاران [ ۲۲ ] یک شبکه مبتنی بر YOLOv3 با هدایت توجه عمیق و قابل تفکیک برای تشخیص بلادرنگ اهداف وسایل نقلیه کوچک در تصاویر سنجش از دور نوری پیشنهاد کرد. شی و همکاران [ ۲۳] یک روش تشخیص بدون لنگر تک مرحله ای برای تشخیص وسایل نقلیه در جهت های دلخواه پیشنهاد کرد. این روش تشخیص وسیله نقلیه را به یک مشکل یادگیری چندوظیفه ای تبدیل می کند که نیاز به استفاده از یک شبکه کانولوشن کامل برای پیش بینی مستقیم ویژگی های سطح بالای خودرو دارد.

۳٫ مواد و روشها

این بخش به معرفی شبکه اصلی RepDarkNet می پردازد که یک آشکارساز چند لایه و شبکه فیوژن ویژگی است. علاوه بر این، ما برخی از روش‌های رایج را برای بهبود میزان تشخیص اهداف کوچک آزمایش کردیم.

۳٫۱٫ دلایل انتخاب سبک DarkNet

ما ساختار DarkNet را انتخاب کردیم زیرا دقت و سرعت را با هم ترکیب می کند. در حال حاضر، شبکه های ستون فقرات به دقت طراحی شده اند تا ساختار چند شاخه ای را شامل شوند، مانند MobileNet [ ۱۱ ، ۱۲ ، ۱۳ ]، Inception [ ۲۴ ]، یا DenseNet [ ۲۵ ]. آنها ویژگی های مشترکی دارند. برای مثال، DenseNet با اتصال لایه‌های پایین‌تر به بسیاری از لایه‌های بالاتر، توپولوژی را پیچیده‌تر می‌کند، و در حالی که یک شبکه تبدیل با کارایی بالا ارائه می‌کند، این کار را به قیمت انبوهی از GPU انجام می‌دهد.
Darknet53 یک شبکه دو شاخه ای ساده است که شاخه ها را در یک فرآیند کانولوشن از بالا به پایین اضافه می کند. این عمدتا از یک سری بلوک های باقیمانده کاملاً طراحی شده تشکیل شده است. همانطور که در شکل ۲ مشاهده می شود ، بلوک باقیمانده خروجی دو پیچیدگی به اضافه خروجی یک اتصال پرش را با هم به عنوان اطلاعات ورودی برای لایه بعدی کانولوشن بارگذاری می کند. لایه شبکه پیچیده DarkNet تشخیص سریع و شگفت آور ایجاد می کند.
در یک ساختار شبکه چند شاخه ای، مسیرهای بین شاخه ها به شدت به یکدیگر وابسته نیستند، بنابراین ساختار را می توان به عنوان مجموعه ای از مسیرهای بسیاری مشاهده کرد [ ۲۶ ]. در مقیاس کوچک، شبکه به سبک DarkNet از چندین نتیجه بلوک باقیمانده تشکیل شده است، در حالی که در مقیاس بزرگتر، می توان آن را به صورت پنج لایه مشاهده کرد، مانند شکل ۲ ، که در آن شبکه ستون فقرات را به یک ساختار پنج بلوکی تقسیم می کنیم. R ۱ – R5). در زمینه تشخیص هدف، ساختارهای شبکه عمیق‌تر نسبت به سازه‌های کم عمق قوی‌تر هستند، اگرچه ساختن ساختارهای انشعاب چندگانه در هر لایه باقی‌مانده، زمان آموزش و زمان تشخیص را افزایش می‌دهد و منابع محاسباتی قابل توجهی را در ازای دقت ضعیف هدر می‌دهد. بنابراین، پیاده سازی چنین ساختارهای شبکه در یک ماژول بزرگ راه خوبی برای بهبود آنها است. بنابراین YOLOv4 پیشرفتی در دقت ایجاد می‌کند، بنابراین ما در شبکه اصلی CSPDarkNet پیشرفت می‌کنیم.

۳٫۲٫ مروری بر شبکه ستون فقرات به سبک DarkNet

RepVGG پیشنهادی (پارامترسازی مجدد VGG) [ ۱۴ ] باعث می شود VGG دوباره در وظایف طبقه بندی بدرخشد. این یک ساختار شبکه عصبی ساده و در عین حال قدرتمند است. برای تشخیص هدف، DarkNet یک چارچوب عالی و سریع است، اما دقت چیزی است که بسیاری از محققان اکنون روی آن تمرکز می‌کنند. در این کار، ساختار ساده DarkNet را ادامه می‌دهیم و یک شبکه اصلی RepDarkNet با شاخه‌های مختلف طراحی می‌کنیم (ساختار انشعاب دارک‌نت را مجدداً برنامه‌ریزی می‌کنیم)، که جزئیات آن در شکل ۲ آمده است. نشان دهنده یک ماژول چهار شاخه ای در RepDarkNet است. در ماژول SPP، سه لایه maxpool به ترتیب در اندازه های ۵، ۹ و ۱۳ هستند.

CSPDarkNet یکی از شبکه های ستون فقرات ماژول CSP (Cross-Stage-Partial-connections) [ ۷ ] است. اگر CSPDarkNet یک ساختار دو شاخه ای است، RepDarkNet یک ساختار سه شاخه ای ساده، اما قدرتمند است. در مقایسه با CSPDarkNet، تنها یک لایه شاخه در هر لایه اضافه می کند و یک ماژول با اطلاعات تشکیل می دهد. ، جایی که را می توان به صورت زیر بیان کرد:

جایی که خروجی لایه قبلی است، اطلاعات وزن است، پیچیدگی را نشان می دهد، B عملیات عادی سازی دسته ای است، و تابع Relu است. توضیح دادن ، ما به عنوان مثال R2 را در نظر می گیریم که شامل دو ماژول باقیمانده است که هر کدام را می توان به صورت زیر بیان کرد:

با توجه به یک مقدار ورودی ، سپس اولین خروجی باقی مانده است:

به طور مشابه، نتیجه پیچیدگی دوم است ، بنابراین:

در فرآیند کانولوشن، CNN ها به تدریج اطلاعات ویژگی های اهداف کوچک را از دست می دهند، در حالی که ماژول چند شاخه ای ساخته شده است تا اطلاعات لایه بالایی را مستقیماً به لایه عمیق ارسال کند و اطلاعات ویژگی های شبکه لایه عمیق را، به ویژه برای کوچک، غنی کند. اهداف نتایج تجربی همچنین نشان می‌دهد که RepDarkNet اهداف کوچک را بهتر از سایر الگوریتم‌ها تشخیص می‌دهد.

۳٫۳٫ شبکه فیوژن متقابل

شبکه همجوشی متقاطع از دو بخش تشکیل شده است: یک آشکارساز چند لایه متقاطع و یک شبکه فیوژن ویژگی گردن.
در شبکه YOLOv4، هد YOLO معمولا تصویر را به دو قسمت تقسیم می کند ، ، و شبکه ها با این حال، در تصاویر سنجش از دور نوری، اهداف کوچک معمولا کوچکتر از ۳۰ یا حتی ۲۰ پیکسل هستند. بنابراین، افزودن یک سر تشخیص در سطح کم عمق راه خوبی برای بهبود دقت تشخیص اهداف کوچک است و مطالعات نشان می‌دهد که این امر امکان‌پذیر است [ ۲۷ ]. برای شناسایی اهداف کوچک، همانطور که در شکل ۳ نشان داده شده است ، N3 به خوبی کار نمی کند. تقسیم بندی الف تصویر پیکسل به یک شبکه تشخیص را بر اساس اطلاعات ویژگی موجود دشوار می کند. بنابراین، یک آشکارساز چند لایه متقاطع طراحی شد که اندازه شبکه و زمان استنتاج را در نظر می گیرد. آشکارساز فقط از لایه های N1، N2 و N4 استفاده می کند و تصویر را به سه مقیاس تقسیم می کند. ، ، و برای شناسایی اهداف بزرگ و کوچک در تصویر در حین استنتاج. آزمایشات نشان می دهد که آشکارساز چند لایه متقاطع بسیار مؤثرتر است، به ویژه در شناسایی اهداف کوچک. شکل ۴ ساختار شبکه آن را نشان می دهد.
با الهام از لیم و همکاران. [ ۲۸ ]، ما نقشه‌های ویژگی سطح بالاتر را از لایه ویژگی هدف ادغام کردیم تا زمینه را برای یک نقشه مشخصه مشخص از هدف فراهم کنیم. به عنوان مثال، در RepDarkNet، با توجه به ویژگی های هدف از R ۲، ویژگی های متنی از لایه R ۱ می آیند، همانطور که در شکل ۴ نشان داده شده است. با این حال، R ۱ و R ۲ ابعاد متفاوتی دارند، بنابراین کانال‌های شبکه با استفاده از نمونه‌های پایین مقیاس کوچک می‌شوند تا اطمینان حاصل شود که اندازه اطلاعات ویژگی در هر دو طرف قبل از ترکیب ویژگی‌ها یکسان است و اطلاعات ویژگی ذوب شده برای تشخیص در هم می‌پیچد. توسط یک آشکارساز چند لایه متقاطع.

۳٫۴٫ گزینه هایی برای بهبود دقت تشخیص هدف کوچک

۳٫۴٫۱٫ GIoU

به عنوان از دست دادن رگرسیون Bbox، GIoU [ ۱۵ ] (تقاطع عمومی بر روی اتحاد) همیشه کمتر یا برابر با IoU [ ۲۹ ] (تقاطع روی اتحادیه) است، که در آن و . وقتی دو شکل دقیقاً منطبق شوند، GIoU = IoU = 1. GIoU و IoU را می توان به صورت زیر بیان کرد:

جایی که و اشکال دلخواه هستند در این الگوریتم، و شناسایی جعبه نشانگر در تصویر، و الگوریتم جعبه انتخاب لنگر را پیش بینی می کند. حداقل شکل بسته است.

هر دو IoU و GIoU به عنوان فاصله بین آنها عمل می کنند و ; اگر ، سپس IoU( ، ) = ۰، بنابراین IoU نشان نمی دهد که این دو شکل نزدیک یا دور هستند.
۳٫۴٫۲٫ اندازه ورودی بزرگتر
اندازه ورودی بزرگتر اندازه ناحیه هدف را افزایش می دهد و حفظ ویژگی های اهداف کوچکتر را آسان تر می کند. با این حال، افزایش اندازه ورودی در طول تمرین حافظه بیشتری را اشغال می کند. در آزمایش‌هایمان، حداکثر اندازه ورودی را فقط از افزایش دادیم به به دلیل محدودیت های تجربی ما همچنین می‌توانیم اندازه ورودی را افزایش دهیم در حالی که مقدار دسته‌ای را کاهش می‌دهیم، اگرچه این به طور قابل توجهی زمان آموزش را افزایش می‌دهد.

۴٫ آزمایش ها، نتایج، و بحث

این بخش مجموعه داده ای را که استفاده کردیم، معیارهای ارزیابی، جزئیات آزمایش ها و نتایج را معرفی می کند. محیط آزمایشی این کار بر اساس سیستم عامل اوبونتو ۱۶٫۰۴ است. پلتفرم سخت افزاری اینتل (R) Xeon(R) Silver 4114 CPU @ 2.2 GHz و Quadro P4000 8 GB * 2 GPU بود.
در فرآیند آموزش، تکانه روی ۰٫۹۴۹، نرخ یادگیری اولیه روی ۰٫۰۰۱۳ و دسته ای روی ۶۴ تنظیم شده است. تعداد تکرارهای متفاوتی برای مجموعه داده های مختلف برای آموزش وجود دارد. در مجموعه داده Dior-vehicle، زمانی که تعداد تکرارهای آموزشی ۳۲۰۰ و ۳۶۰۰ باشد، نرخ یادگیری به ترتیب به ۰٫۰۰۰۱۳ و ۰٫۰۰۰۰۱۳ تنظیم می شود. ما ۴۰۰۰ بار از این الگوریتم را تکرار کرده ایم. در نهایت در این محیط سخت افزاری زمان آموزش حدود ۱۲ ساعت می باشد.

۴٫۱٫ مجموعه داده

Dior [ ۳۰ ] و NWPU VHR-10 [ ۳۰ ] مجموعه داده هایی بودند که برای آزمایش روش ما استفاده شدند. برای نشان دادن شهودی بیشتر نتایج الگوریتم برای شناسایی اهداف کوچک، مجموعه داده Dior-vehicle [ ۳۱ ] را با استفاده از روش آزمایش فرسایش آزمایش کردیم.

۴٫۱٫۱٫ مجموعه داده Dior-Vehicle

Dior-vehicle یک کلاس جداگانه از وسایل نقلیه در Dior است. مجموعه داده عمدتاً دارای اهداف کوچک است و اهداف خودرویی که کمتر از ۱۰ پیکسل مصرف می کنند علامت گذاری می شوند. در اینجا، COCO [ ۳۲ ] را برای طبقه بندی اندازه شی، که مساحت اشیاء کوچک کمتر از ۳۲ × ۳۲ پیکسل است، دنبال می کنیم. مجموعه داده Dior-vehicle دارای ۶۴۲۱ تصویر و بیش از ۳۲۰۰۰ هدف است. در آزمایش‌های خود، مجموعه‌های آموزشی و آزمایشی را به نسبت ۶:۴ تقسیم می‌کنیم. سپس امکان‌سنجی روش پیشنهادی را از طریق آزمایش فرسایش آزمایش می‌کنیم [ ۴ ].
۴٫۱٫۲٫ مجموعه داده دیور
Dior یک مجموعه داده معیار مقیاس بزرگ برای تشخیص هدف در تصاویر سنجش از دور نوری است که از ۲۳۴۶۳ تصویر و ۱۹۰۲۸۸ نمونه تشکیل شده است. این شامل ۲۰ دسته است. در آزمایش‌های گزارش‌شده در اینجا، از تصاویر «trainval» برای آموزش و از تصاویر آزمون برای آزمایش استفاده می‌کنیم. “trainval” یک سند TXT است. نویسنده مجموعه داده دیور نام تصویری را که برای آموزش استفاده می شود در این سند نوشته است.
علاوه بر این، اندازه اشیاء در محدوده وسیعی متفاوت است، نه تنها از نظر وضوح فضایی، بلکه از نظر تنوع اندازه بین و درون طبقاتی بین اشیا. در مرحله بعد، تصاویر در شرایط مختلف تصویربرداری، آب و هوا، فصول و کیفیت تصویر به دست آمدند، بنابراین تفاوت های زیادی در اهداف موجود در آن وجود دارد. برخی از تصاویر ممکن است نویز داشته باشند و برخی از اهداف در حال حرکت تار شوند. در نهایت، از درجه بالایی از شباهت بین طبقاتی و تنوع درون طبقاتی برخوردار است. این ویژگی ها تا حد زیادی دشواری تشخیص را افزایش می دهد.
اگر می‌خواهید اطلاعات بیشتری درباره مجموعه داده‌ها بیابید، لطفاً به http://www.escience.cn/people/gongcheng/DIOR.html مراجعه کنید ، که در ۷ اکتبر ۲۰۲۰ قابل دسترسی است.
۴٫۱٫۳٫ مجموعه داده NWPU VHR-10
مجموعه داده NWPU VHR-10 یک مجموعه داده عمومی فقط تحقیقاتی است که شامل ۱۰ کلاس است. NWPU VHR-10 دارای ۶۵۰ تصویر نوری مثبت و ۱۵۰ تصویر نوری منفی است. در آزمایش‌هایمان، ۶۵۰ تصویر نوری مثبت را با حاشیه‌نویسی با نرخ ۵:۵ تقسیم کردیم تا یک مجموعه آموزشی و یک مجموعه آزمایشی تولید کنیم. اگر می‌خواهید اطلاعات بیشتری درباره مجموعه داده بیابید، لطفاً http://www.escience.cn/people/gongcheng/NWPU-VHR-10.html (در ۱۰ مه ۲۰۲۱ در دسترس قرار گرفته است).

۴٫۲٫ استانداردهای ارزیابی

امتیاز F1، دقت، فراخوانی و IoU نیز در اندازه گیری ما در آزمایش فرسایش برای آزمایش مجموعه داده Dior-vehicle در نظر گرفته شده است. فرمول IoU در معادله (۱) آورده شده است و امتیاز F1، دقت و یادآوری را می توان به صورت زیر بیان کرد:

، ، و به ترتیب تعداد مثبت واقعی، مثبت کاذب و منفی کاذب است. در این مقاله از AP ​​(دقت متوسط) و mAP (دقت متوسط ​​متوسط) برای ارزیابی همه روش‌ها استفاده می‌کنیم. این موارد را می توان به صورت زیر بیان کرد:

هنگام آزمایش نتایج، یک مقدار آستانه برای IoU تنظیم می شود، مانند ۰٫۵ یا ۰٫۷۵٫ هنگامی که کادر شناسایی شده و کادر حاشیه نویسی واقعی از این آستانه فراتر رود، آنها مثبت واقعی در نظر گرفته می شوند. در غیر این صورت، آنها مثبت کاذب هستند. وقتی کادر شناسایی شده در حاشیه نویسی واقعی وجود نداشته باشد، آنها منفی کاذب هستند.

۴٫۳٫ نتایج تجربی و تجزیه و تحلیل

۴٫۳٫۱٫ نتایج Dior-Vehicle و تجزیه و تحلیل

برای بررسی تاثیر روشی که در نتایج تشخیص استفاده کردیم، از آزمایش فرسایش برای آزمایش مجموعه داده استفاده کردیم. همانطور که در جدول ۱ نشان داده شده است ، “a” نشان دهنده ستون فقرات Rep، “b” ورودی بزرگتر، “c” GIoU، “d” آشکارساز چند لایه متقاطع، و “e” شبکه فیوژن ویژگی است. به عنوان مثال، RepDarkNet-A2 از هر دو “a” و “c” استفاده می کند. RepDarknet-B3 از تمام روش ها استفاده می کند و الگوریتم نهایی ما است.
در مرحله اول، RepDarkNet-A0، تنها ستون فقرات RepDarkNet را در بالای الگوریتم YOLOv4 اضافه می کنیم. همانطور که در جدول ۱ مشاهده می شود ، AP بسیار بهبود یافته است (۶۰٫۳۳-۷۱٫۵۸٪). در مرحله بعد، از ورودی بزرگتر و ستون فقرات RepDarkNet استفاده می کنیم و AP ۲٫۹۳٪ افزایش می یابد. ثالثاً، ما از GIoU و RepDarkNet backbone استفاده می کنیم و در مقایسه با RepDarkNet-A0، AP ۲٫۵۸٪ افزایش یافته است. سپس، از ستون فقرات RepDarkNet و آشکارساز چند لایه متقاطع استفاده می کنیم و در مقایسه با RepDarkNet-A0، AP4.24 درصد افزایش یافته است. این بالاترین روش تبلیغاتی غیر از ستون فقرات RepDarkNet است. در مرحله پنج، از ستون فقرات RepDarkNet، آشکارساز چند لایه متقابل و شبکه فیوژن فیچر استفاده می‌کنیم. در مقایسه با RepDarkNet-B1، AP @۵۰ ۰٫۹۵٪ کمتر است، اما AP @۷۵ ۲٫۰۵٪ بیشتر است. در نهایت همه روش ها را اضافه کردیم. روش پیشنهادی به بهترین عملکرد برای مجموعه داده Dior-vehicle در هر دو مورد AP @۵۰ و AP @۷۵ نزدیک می‌شود. شکل ۵ مقایسه تلفات و mAP بین YOLOv4 و RepDarkNet-B3 را نشان می دهد. مشاهده می شود که مقدار ضرر RepDarkNet-B3 پس از ۱۲۰۰ بار تکرار کمتر از YOLOv4 است. در همان زمان، mAPمقدار بالاتر از YOLOv4 است. علاوه بر این، شکل ۶ تغییرات AP @۵۰ و AP @۷۵ را برای هر روش نشان می دهد.
همانطور که در شکل ۷ مشاهده می شود (a1,a2,b1,b2)، الگوریتم YOLOv4 به اشتباه کشتی را به عنوان یک ماشین تشخیص می دهد، در حالی که RepDarkNet به طور دقیق اهداف ماشین تصاویر را قاب می کند. از شکل ۷ (a3,a4,b3,b4) مشخص است که RepDarkNet اهداف کوچک را بسیار بهتر از YOLOv4 شناسایی می کند. نتایج در جدول ۱ و جدول ۲ بهبود واضح ارائه شده توسط روش پیشنهادی برای اهداف کوچک را نشان می دهد. شکل ۷ (a5,a6) نشان می دهد که الگوریتم YOLOv4 به اشتباه علائم جاده را به عنوان اتومبیل تشخیص می دهد، در حالی که RepDarkNet به درستی علائم جاده را نادیده می گیرد. با در نظر گرفتن علائم نامحسوس تشخیص اشتباه در شکل ۷(a5,a6)، آن را با دایره زرد علامت گذاری کرده ایم تا خواننده سریعتر متوجه این اطلاعات شود. این نشان می دهد که RepDarkNet از YOLOv4 قوی تر است.
علاوه بر این، وسایل نقلیه ویژه تری مانند کامیون ها وجود دارد که ویژگی های آنها با خودروهای معمولی متفاوت است. در مجموعه داده، اگرچه کامیون ها نیز برچسب گذاری شده اند، تعداد کامیون ها در داده ها نسبتاً کمتر است. همانطور که در شکل ۷ نشان داده شده است (c1,d1)، دقت تشخیص الگوریتم پیشنهادی ما بالاتر از YOLOv4 برای کامیون ها است.
البته الگوریتم ما کاستی هایی هم دارد. با نگاه کردن به شکل ۷ (c2,c3,d2,d3)، می‌توانیم ببینیم که به راحتی می‌توان کانتینرها را بدون توجه به RepDarkNet یا YOLOv4 به عنوان خودرو اشتباه گرفت. این مشکلی است که ما می خواهیم در تحقیقات آینده خود آن را حل کنیم.
در نهایت، برای آزمایش کلیت آشکارساز پیشنهادی، ما مستقیماً کلاس وسیله نقلیه را در مجموعه داده HRRSD [ ۱۶ ] بدون هیچ آموزشی با استفاده از وزن‌های Dior تشخیص می‌دهیم. نتیجه تشخیص نهایی از به دست آمد. اگرچه دور از انتظار است، اما این بسیار فراتر از نتیجه است بدست آمده توسط YOLOv4. البته، ما همچنین امیدواریم که در تحقیقات آینده، پیشرفت بیشتری در عملکرد عمومی آشکارساز حاصل شود.
۴٫۳٫۲٫ نتایج مجموعه داده دیور و تجزیه و تحلیل
همانطور که در جدول ۳ نشان داده شده است ، برای نمایش بهتر نتایج، هر دسته را در مجموعه داده شماره گذاری می کنیم.
جدول ۴ به وضوح نشان می دهد که الگوریتم پیشنهادی بهترین عملکرد را برای مجموعه داده دیور دارد، و عملکرد بسیار بهتری از الگوریتم های دیگر برای تشخیص اهداف کوچک، مانند ماشین ها یا کشتی ها دارد. برای اهداف نسبتاً بزرگ، مانند پل ها یا زمین های بسکتبال، دقت تشخیص نیز نسبت به سایر الگوریتم ها کمی بهبود یافته است که کاربرد قوی الگوریتم پیشنهادی را نشان می دهد. در مقایسه با الگوریتم YOLOv4، اکثر کلاس‌های تست ما دقیق‌تر هستند، که به طور قانع‌کننده‌ای نشان می‌دهد که RepDarkNet یک الگوریتم تشخیص هدف عالی است.
شکل ۸ a-i نتایج تجسم روش پیشنهادی اعمال شده در مجموعه داده دیور را نشان می دهد. RepDarkNet نه تنها برای اهداف کوچک مانند کشتی ها، هواپیماها و مخازن ذخیره سازی در مجموعه داده ها، بلکه برای کلاس های دیگر مانند زمین های تنیس و بسکتبال نیز عملکرد خوبی دارد. نتایج جدول ۴ نیز نشان می دهد که علاوه بر سد، ایستگاه عوارض بزرگراه، زمین تنیس و ایستگاه قطار، رویکرد پیشنهادی بهترین نتایج را در مقایسه با سایر الگوریتم ها ایجاد می کند. فقط در سد، ایستگاه عوارضی بزرگراه و زمین تنیس، YOLOv4 بهتر از RepDarkNet است.
۴٫۳٫۳٫ نتایج NWPU VHR-10 و تجزیه و تحلیل
جدول ۵ و شکل ۹ a-i عملکرد RepDarkNet را در مقایسه با سایر روش های منتشر شده در هنگام اعمال به مجموعه داده NWPU VHR-10 نشان می دهد. ابتدا اختصارات کلاس ها را در جدول ۵ معرفی می کنیم. دسته بندی ها عبارتند از: هواپیما (PL)، کشتی (SP)، مخزن ذخیره سازی (ST)، الماس بیسبال (BD)، زمین تنیس (TC)، زمین بسکتبال (BC)، زمین پیست زمینی (GT)، بندر (HB)، پل (BR) و وسیله نقلیه (VH).
روش پیشنهادی تولید می کند ، که بهترین عملکرد را در بین تمام روش ها دارد. توجه داشته باشید که هیچ هدف کوچکی در مجموعه داده ظاهر نمی شود و کلاس های SH، BD، TC و VE که در جدول ۵ پررنگ شده اند، بالاترین دقت را در نتایج تجربی دارند. به طور کلی، mAP نیز بالاترین است، که شاهد خوبی از کاربرد قوی روش ما است.

۵٫ نتیجه گیری ها

ما یک شبکه استخراج ویژگی ستون فقرات جدید به نام “RepDarkNet” را پیشنهاد می کنیم که با در نظر گرفتن توان عملیاتی شبکه و زمان محاسبات، تشخیص هدف را بهبود می بخشد. علاوه بر این، برای اهداف کوچک در کلاس وسایل نقلیه تصاویر سنجش از دور نوری، ما یک آشکارساز چند لایه چند لایه و شبکه همجوشی را پیشنهاد می‌کنیم. در نهایت، در آزمایشات، RepDarkNet به دست آورد و ، که هر دو تقریباً بهینه هستند و مجموعه ای از آزمایشات ابلیشن رویکرد ما را توجیه می کند. در آزمایش های گسترده، RepDarkNet در حال اجرا تحت Quadro P4000 به دست می آید هنگامی که به مجموعه داده دیور و هنگامی که به مجموعه داده NWPU VHR-10 اعمال می شود، عملکرد بهتری از سایر الگوریتم ها دارد و کاربرد گسترده الگوریتم پیشنهادی را نشان می دهد. برای آزمایش الگوریتم برای ردیف های تعمیم یافته، به دست آوردیم عملکرد در مجموعه داده HRRSD با استفاده از وزن‌های آموزشی مجموعه داده Dior-vehicle بدون هیچ آموزش اضافی دیگری. تحت همین شرایط، YOLOv4 به دست می آید کارایی. بنابراین، از نظر کلی، RepDarkNet بسیار بهتر از YOLOv4 است. با بهینه‌سازی و ارزیابی مدل‌های شبکه هدف کوچک پیشنهادی تحت سه مجموعه داده (Dior-vehicle، Dior، و NWPU VHR-10)، این نتایج پیامدهای عملی برای بهبود تکنیک‌های تشخیص مبتنی بر تصاویر سنجش از دور نوری دارند.

منابع

  1. چنگ، جی. هان، جی. بررسی تشخیص اشیا در تصاویر سنجش از دور نوری. ISPRS J. Photogramm. Remote Sens. ۲۰۱۶ ، ۱۱۷ ، ۱۱-۲۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. گیرشیک، آر. دوناهو، جی. دارل، تی. Malik, J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ [ Google Scholar ]
  3. Girshick, R. Fast R-CNN. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، ۱۱-۱۸ دسامبر ۲۰۱۵٫ ص ۱۴۴۰-۱۴۴۸٫ [ Google Scholar ]
  4. رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster R-CNN: Towards towards realtime object detection with region proposal networks. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۱۷ ، ۳۹ ، ۱۱۳۷-۱۱۴۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. لیو، دبلیو. آنگلوف، دی. ایرهان، د. سگدی، سی. رید، اس. فو، سی. Berg، AC SSD: آشکارساز MultiBox تک شات. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Cham، Switzerland، ۲۰۱۶٫ [ Google Scholar ]
  6. ردمون، جی. فرهادی، A. YOLOv3: یک پیشرفت افزایشی. arXiv ۲۰۱۸ , arXiv:1804.02767. [ Google Scholar ]
  7. بوچکوفسکی، آ. وانگ، سی. لیائو، H. YOLOv4: سرعت و دقت بهینه تشخیص اشیا. arXiv ۲۰۲۰ ، arXiv:2004.10934. [ Google Scholar ]
  8. او، ک. ژانگ، ایکس. رن، اس. Sun، J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده آمریکا، ۲۷ تا ۳۰ ژوئن ۲۰۱۶٫ [ Google Scholar ]
  9. خاخام، ج. ری، ن. شوبرت، ام. چاودری، اس. Chao، D. تشخیص اشیای کوچک در تصاویر سنجش از راه دور با GAN پیشرفته لبه به انتها و شبکه آشکارساز شی. Remote Sens. ۲۰۲۰ , ۱۲ , ۱۴۳۲٫ [ Google Scholar ] [ CrossRef ]
  10. سیمونیان، ک. زیسرمن، الف. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv ۲۰۱۴ ، arXiv:1409.1556. [ Google Scholar ]
  11. هوارد، AG; زو، ام. چن، بی. کالنیچنکو، دی. وانگ، دبلیو. ویاند، تی. آندریتو، م. Adam, H. MobileNets: شبکه های عصبی کانولوشن کارآمد برای برنامه های کاربردی بینایی موبایل. arXiv ۲۰۱۷ , arXiv:1704.04861. [ Google Scholar ]
  12. سندلر، ام. هوارد، آ. زو، ام. ژموگینوف، آ. Chen, LC MobileNetV2: باقیمانده های معکوس و تنگناهای خطی. در مجموعه مقالات کنفرانس IEEE/CVF 2018 در مورد دید رایانه و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
  13. هوارد، آ. سندلر، ام. چو، جی. چن، ال سی; چن، بی. تان، م. وانگ، دبلیو. زو، ی. پانگ، آر. Vasudevan, V. جستجو برای MobileNetV3. arXiv ۲۰۱۹ ، arXiv:1905.02244. [ Google Scholar ]
  14. دینگ، ایکس. ژانگ، ایکس. مرد.؛ هان، جی. دینگ، جی. Sun، J. RepVGG: دوباره ساختن ConvNets به سبک VGG. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو، نشویل، TN، ایالات متحده، ۲۰-۲۵ ژوئن ۲۰۲۱؛ صص ۱۳۷۳۳–۱۳۷۴۲٫ [ Google Scholar ]
  15. رضاتوفیقی، ح. تسوی، ن. گواک، جی. صادقیان، ع. رید، آی. Savarese، S. تقاطع تعمیم یافته بر روی اتحاد: یک متریک و یک ضرر برای رگرسیون جعبه محدود. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹٫ [ Google Scholar ]
  16. ژانگ، ی. یوان، ی. فنگ، ی. Lu, X. شبکه عصبی کانولوشنال سلسله مراتبی و قوی برای تشخیص اشیاء سنجش از دور با وضوح بسیار بالا. IEEE Trans. Geosci. Remote Sens. ۲۰۱۹ , ۵۷ , ۵۵۳۵–۵۵۴۸٫ [ Google Scholar ] [ CrossRef ]
  17. Etten، AV شما فقط دو بار نگاه می کنید: تشخیص سریع شی چند مقیاسی در تصاویر ماهواره ای. arXiv ۲۰۱۸ , arXiv:1805.09512. [ Google Scholar ]
  18. دینگ، جی. زو، ن. لانگ، ی. Xia، GS; Lu, Q. ترانسفورماتور RoI یادگیری برای تشخیص اجسام جهت دار در تصاویر هوایی. arXiv ۲۰۱۸ , arXiv:1812.00155. [ Google Scholar ]
  19. یانگ، ایکس. یانگ، جی. یان، جی. ژانگ، ی. Fu، K. SCRDet: به سوی تشخیص قوی تر برای اجسام کوچک، بهم ریخته و چرخان. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی رایانه (ICCV)، سئول، کره، ۲۷ اکتبر تا ۲ نوامبر ۲۰۱۹٫ [ Google Scholar ]
  20. ژو، ال. وی، اچ. لی، اچ. ژائو، دبلیو. Zhang، Y. تشخیص شی دلخواه گرا در تصاویر سنجش از دور بر اساس مختصات قطبی. دسترسی IEEE ۲۰۲۰ ، ۸ ، ۲۲۳۳۷۳–۲۲۳۳۸۴٫ [ Google Scholar ] [ CrossRef ]
  21. اودبرت، ن. لو ساکس، بی. Lefèvre, S. Segment-Before-Detect: Vehicle Detection and Classification from the Semantic Semantic Semantic Semmentic of Aerial Images. Remote Sens. ۲۰۱۷ , ۹ , ۳۶۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. ژانگ، ز. لیو، ی. لیو، تی. لین، ز. Wang, S. DAGN: چارچوب تشخیص وسیله نقلیه تصویری سنجش از راه دور پهپاد در زمان واقعی. IEEE Geosci. سنسور از راه دور Lett. ۲۰۲۰ ، ۱۷ ، ۱۸۸۴-۱۸۸۸٫ [ Google Scholar ] [ CrossRef ]
  23. شی، اف. ژانگ، تی. Zhang، T. تشخیص وسیله نقلیه با آگاهی جهت‌گیری در تصاویر هوایی از طریق یک رویکرد تشخیص شی بدون لنگر. IEEE Trans. Geosci. Remote Sens. ۲۰۲۰ , ۵۹ , ۵۲۲۱–۵۲۳۳٫ [ Google Scholar ] [ CrossRef ]
  24. سگدی، سی. آیوف، اس. ونهوک، وی. Alemi، A. Inception-v4، Inception-ResNet و تاثیر اتصالات باقیمانده بر یادگیری. در مجموعه مقالات سی و یکمین کنفرانس AAAI در مورد هوش مصنوعی، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، ۴ تا ۹ فوریه ۲۰۱۷٫ [ Google Scholar ]
  25. هوانگ، جی. لیو، ز. لورن، وی. واینبرگر، شبکه‌های کانولوشن با اتصال متراکم KQ. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۶٫ [ Google Scholar ]
  26. ویت، ا. ویلبر، ام. Belongie, S. شبکه‌های باقیمانده مانند مجموعه‌ای از شبکه‌های نسبتا کم عمق رفتار می‌کنند. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، بارسلون، اسپانیا، ۵ تا ۱۰ دسامبر ۲۰۱۶٫ [ Google Scholar ]
  27. کینگ، ی. لیو، دبلیو. فنگ، ال. Gao, W. بهبود شبکه YOLO برای تشخیص هدف از راه دور با زاویه آزاد. Remote Sens. ۲۰۲۱ , ۱۳ , ۲۱۷۱٫ [ Google Scholar ] [ CrossRef ]
  28. لیم، جی اس؛ آسترید، ام. یون، اچ جی; لی، SI تشخیص شی کوچک با استفاده از زمینه و توجه. در مجموعه مقالات کنفرانس بین المللی ۲۰۲۱ هوش مصنوعی در اطلاعات و ارتباطات (ICAIIC)، جزیره ججو، کره، ۲۰ تا ۲۳ آوریل ۲۰۲۱٫ [ Google Scholar ]
  29. یو، جی. جیانگ، ی. وانگ، ز. گائو، ز. Huang, T. UnitBox: An Advanced Object Detection Network. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی ACM در چند رسانه ای، آمستردام، هلند، ۱۵ تا ۱۹ اکتبر ۲۰۱۶٫ [ Google Scholar ]
  30. لی، ک. وان، جی. چنگ، جی. منگ، ال. Han, J. تشخیص شیء در تصاویر سنجش از دور نوری: یک بررسی و یک معیار جدید. ISPRS J. Photogramm. Remote Sens. ۲۰۲۰ , ۱۵۹ , ۲۹۶–۳۰۷٫ [ Google Scholar ] [ CrossRef ]
  31. چنگ، جی. هان، جی. ژو، پی. Guo, L. تشخیص شی چند طبقه جغرافیایی و طبقه بندی تصویر جغرافیایی بر اساس مجموعه آشکارسازهای قطعه. ISPRS J. Photogramm. Remote Sens. ۲۰۱۴ ، ۹۸ ، ۱۱۹-۱۳۲٫ [ Google Scholar ] [ CrossRef ]
  32. لین، تی.-ای. مایر، م. بلنگی، اس. هیز، جی. پرونا، پی. رامانان، دی. دلار، P. Zitnick، C. مایکروسافت کوکو: اشیاء مشترک در زمینه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، زوریخ، سوئیس، ۶ تا ۱۲ سپتامبر ۲۰۱۴٫ صص ۷۴۰-۷۵۵٫ [ Google Scholar ]
  33. هوانگ، دبلیو. لی، جی. چن، کیو. جو، م. Qu, J. CF2PN: تشخیص هدف شبکه هرمی ترکیبی مبتنی بر سنجش از دور. Remote Sens. ۲۰۲۱ , ۱۳ , ۸۴۷٫ [ Google Scholar ] [ CrossRef ]
  34. یوان، ز. لیو، ز. زو، سی. چی، جی. Zhao، D. تشخیص شیء در تصاویر سنجش از راه دور از طریق شبکه هرمی چند ویژگی با بلوک میدان پذیرنده. Remote Sens. ۲۰۲۱ , ۱۳ , ۸۶۲٫ [ Google Scholar ] [ CrossRef ]
  35. لی، ی. هوانگ، Q. پی، ایکس. چن، ی. جیائو، ال. Shang, R. شبکه توجه متقابل لایه برای تشخیص اشیاء کوچک در تصاویر سنجش از دور. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. ۲۰۲۱ , ۱۴ , ۲۱۴۸–۲۱۶۱٫ [ Google Scholar ] [ CrossRef ]
  36. شیونگ، اس. تان، ی. لی، ی. ون، سی. Yan, P. تشخیص شیء مبتنی بر توجه در تصاویر سنجش از راه دور. Remote Sens. ۲۰۲۱ , ۱۳ , ۱۹۲۵٫ [ Google Scholar ] [ CrossRef ]
شکل ۱٫ وسایل نقلیه در تصاویر سنجش از دور نوری. وسایل نقلیه در ( a ) عموماً کمتر از ۱۰ پیکسل هستند و در ( b ) با سایه ها پوشانده می شوند. تصویر ( a ) از مجموعه داده Dior و ( b ) از مجموعه داده HRRSD است.
شکل ۲٫ جزئیات شبکه ستون فقرات. در Rn، وقتی n = ۱، لایه = ۱; وقتی n = ۲، لایه = ۲; وقتی n = ۳ یا ۴، لایه = ۸٫ و هنگامی که n = ۵، لایه = ۴٫ فلش بنفش نشان دهنده ارتباط بین و بلوک ها، اطلاعات خروجی از اطلاعات ورودی است .
شکل ۳٫ مروری بر تشخیص چند مقیاسی در YOLOv4.
شکل ۴٫ نمای کلی آشکارسازهای چند لایه متقاطع و شبکه های همجوشی ویژگی.
شکل ۵٫ مقایسه تلفات YOLOv4 ( a ) و RepDarkNet-B3 ( b ).
شکل ۶٫ مقایسه الگوریتم های مختلف در خودرو دیور.
شکل ۷٫ مقایسه نتایج تشخیص بین YOLOv4 ( a1 – a6,c1 – c3 ) و RepDarkNet ( b1 – b6,d1 – d3 ).
شکل ۸٫ نتایج تشخیص RepDarkNet در مجموعه داده دیور ( a – i ).
شکل ۹٫ نتایج تشخیص RepDarkNet در مجموعه داده NWPU VHR-10 ( a – i ).

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما