در سال‌های اخیر، پیشرفت قابل توجهی در تشخیص اشیا با استفاده از شبکه‌های عصبی کانولوشنال (CNN) حاصل شده است. با این حال، با توجه به ویژگی های تصاویر سنجش از راه دور (RSIs)، روش های رایج تشخیص اشیا برای RSI ها مناسب نیستند. با هدف مشکلات موجود در RSI، این مقاله یک روش تشخیص شی را بر اساس شبکه تجمع مسیر ترکیبی متراکم (DFF-PANet) پیشنهاد می‌کند. در مرحله اول، برای بهبود بهتر عملکرد تشخیص نمونه‌های کوچک و متوسط، ماژول استفاده مجدد از ویژگی (FRM) را پیشنهاد می‌کنیم که می‌تواند اطلاعات معنایی و مکان موجود در نقشه‌های ویژگی را یکپارچه کند. این ماژول می تواند از نقشه های ویژگی در ستون فقرات برای افزایش قابلیت تشخیص نمونه های کوچک و متوسط استفاده مجدد کند. پس از آن، ما DFF-PANet را طراحی می کنیم، که می تواند به ویژگی های اطلاعات استخراج شده از ستون فقرات کمک کند تا با کارایی بیشتری ترکیب شوند و در نتیجه با مشکل عوامل تداخل خارجی مقابله کنند. ما آزمایش‌هایی را روی مجموعه داده‌های تشخیص شی در تصاویر هوایی (DOTA) و مجموعه داده HRSC2016 انجام دادیم. دقت به ۷۱٫۵% mAP رسید که از اکثر آشکارسازهای شی یک مرحله ای و دو مرحله ای در حال حاضر بیشتر است. در همین حال، اندازه مدل ما تنها ۹٫۲ M است که نیاز سبک وزن را برآورده می کند. نتایج تجربی نشان می‌دهد که روش ما نه تنها دقت تشخیص بهتری دارد، بلکه کارایی بالایی را در RSIs حفظ می‌کند. دقت به ۷۱٫۵% mAP رسید که از اکثر آشکارسازهای شی یک مرحله ای و دو مرحله ای در حال حاضر بیشتر است. در همین حال، اندازه مدل ما تنها ۹٫۲ M است که نیاز سبک وزن را برآورده می کند. نتایج تجربی نشان می‌دهد که روش ما نه تنها دقت تشخیص بهتری دارد، بلکه کارایی بالایی را در RSIs حفظ می‌کند. دقت به ۷۱٫۵% mAP رسید که از اکثر آشکارسازهای شی یک مرحله ای و دو مرحله ای در حال حاضر بیشتر است. در همین حال، اندازه مدل ما تنها ۹٫۲ M است که نیاز سبک وزن را برآورده می کند. نتایج تجربی نشان می‌دهد که روش ما نه تنها دقت تشخیص بهتری دارد، بلکه کارایی بالایی را در RSIs حفظ می‌کند.

کلید واژه ها:

ماژول استفاده مجدد از ویژگی ; بلوک متراکم باقیمانده همجوشی ویژگی متراکم ; سنجش از دور

۱٫ مقدمه

با پیشرفت حسگرهای RSI، افراد می توانند با استفاده از فناوری سنجش از دور، تصاویر هوایی با کیفیت و وضوح بالا به دست آورند. در همین حال، تشخیص هدف در RSI ها در جنبه های نظامی، غیر نظامی و غیره نیز اهمیت زیادی دارد. امروزه، یادگیری عمیق پیشرفت زیادی را در مسائل مختلف بینایی رایانه ای، به عنوان مثال، طبقه بندی اشیا [ ۱ ، ۲ ، ۳ ]، تشخیص اشیا [ ۴ ، ۵ ، ۶ ]، ردیابی اشیا [ ۷ ، ۸ ] ارتقا داده است. استفاده از مدل های یادگیری عمیق در تشخیص اشیاء هوایی توجه بیش از پیش را برانگیخته است.

در چند سال گذشته، CNN ها در بسیاری از الگوریتم های تشخیص اشیا ظاهر شده اند که نتایج خوبی هم در سرعت و هم از نظر دقت به دست آورده اند. در مقایسه با روش‌های سنتی تشخیص اشیا، به عنوان مثال، مدل قطعات تغییر شکل‌پذیر (DPM)، هیستوگرام گرادیان‌های جهت‌یافته (HOG) و ماشین بردار پشتیبان (SVM)، چارچوب‌های تشخیص اشیاء مبتنی بر CNN دو موضوع تشخیص زمین سنتی را تشکیل می‌دهند [ ۹ ] . یکی پوشش محدود است و دیگری فقدان داده های تشخیص است. با توانایی قوی استخراج ویژگی و توانایی نمایش ویژگی، دستاوردهای بزرگی در تشخیص اشیا داشته است. در میان آنها، You Only Look Once (YOLO) یک الگوریتم معمولی تک مرحله ای است. در سال ۲۰۱۶، مدل تشخیص YOLO [ ۱۰] توسط Redmon و همکاران پیشنهاد شد که مستقیماً تصاویر ورودی را برای پیش‌بینی طبقه‌بندی می‌کند. سرعت تشخیص سریعتر از مدل های قبلی است اما به قیمت عملکرد ضعیف تشخیص است. در سال ۲۰۱۷، Redmon و همکاران. مدل تشخیص YOLOv2 را با Darknet-19 به عنوان ستون فقرات [ ۱۱ ] پیشنهاد کرد که عملکرد تشخیص را بهبود می بخشد. در سال ۲۰۱۸، Redmon و همکاران. مدل تشخیص YOLOv3 [ ۱۲ ] را پیشنهاد کرد که از مقیاس‌های چندگانه برای استخراج ویژگی‌های غنی از وضوح‌های مختلف استفاده می‌کند و دقت اهداف کوچک را تا حد زیادی بهبود می‌بخشد. در سال ۲۰۱۹، Bochkovskiy مدل تشخیص YOLOv4 با Cross Stage Partial Darknet 53 (CSPDarknet53) به عنوان ستون فقرات [ ۱۳ ]] برای افزایش سرعت تشخیص و اطمینان از دقت شبکه. متعاقباً، مدل تشخیص YOLOv5 توجه طیف وسیعی از محققان را به دلیل مزایای آن در سرعت بالا و دقت بالا برانگیخت.

اگرچه مدل‌های تشخیص فوق‌الذکر نتایج خوبی به دست آورده‌اند، اما به دلیل ویژگی‌های تصاویر هوایی، آشکارسازهای شی معمولی برای RSI مناسب نیستند. در مقایسه با تشخیص هدف در تصاویر طبیعی، به عنوان مثال، مجموعه داده‌های کلاس‌های شی بصری پاسکال (Pascal VOC) [ ۱۴ ] و مجموعه داده‌های اشیاء مشترک مایکروسافت در زمینه (MS COCO) [ ۱۵ ]، تشخیص شی در RSI معمولاً با چالش‌های زیر مواجه است.

تصاویر هوایی عموماً اندازه بزرگی دارند و به این نتیجه می‌رسند که اندازه اهداف نسبت به تصاویر کوچک است که به راحتی می‌توان از دست رفته تشخیص داد.
RSI ها اغلب با دلایل خارجی، مانند سایه ها، نمونه های مشابه و پس زمینه های پیچیده تداخل دارند، که تشخیص قوانین بافت بین اشیا و اشیاء نادرست را دشوار می کند.
هنگامی که برخی از نمونه‌ها در RSI کنار هم قرار می‌گیرند، Non-Maximum Suppression (NMS) جعبه‌های مرزی اشیاء مختلف را فیلتر می‌کند و در نتیجه تشخیص از دست رفته است.

مشکلات تشخیص شی در RSI ها در شکل ۱ نشان داده شده است.

برای حل مشکلات ذکر شده در بالا، محققان راه حل های مربوطه را ارائه کردند. به عنوان مثال، برای ارتقای قابلیت تشخیص چند مقیاسی شبکه، یوان و همکاران. [ ۱۶ ] یک شبکه هرمی چند ویژگی سرتاسر (MFPNet) را ارائه کرد که ویژگی های معنایی جهانی و ویژگی های جزئیات محلی را با ساخت ماژول هرمی چند ویژگی ترکیب می کند. با این حال، شبکه دارای محدودیت های خاصی برای تشخیص اشیای کوچک در هنگام انجام تشخیص اشیاء چرخشی است. با هدف حل بهتر RSIهای پیچیده و قابل تغییر با وضوح بالا، Huang et al. [ ۱۷] ادغام ویژگی چند مقیاسی و ویژگی متقابل ترکیب شبکه هرمی چند سطحی (CF2PN) بر اساس آشکارساز چند سطحی و چند مقیاسی (M2Det) را پیشنهاد کرد. با این حال، عملکرد شبکه هنوز برای پس‌زمینه‌های پیچیده‌تر و تصاویر هوایی فازی ایده‌آل نیست. زو و همکاران [ ۱۸ ] SELU DenseNet چند مقیاسی (MSE-DenseNet) را طراحی کرد و استراتژی تخصیص لنگر را برای رسیدگی به مشکل تفاوت زیاد در مقیاس شیء ترویج کرد. با این حال، شبکه نمی تواند به نتایج رضایت بخشی در هنگام انجام وظیفه تشخیص RSIs خوب و سه بعدی برسد. برای بهینه سازی عملکرد تشخیص الگوریتم YOLO در RSIs، Qu و همکاران. [ ۶] مدل YOLOv3 را با یک شبکه کمکی طراحی کرد. با این حال، سرعت تشخیص ایده آل نیست. ژانگ و همکاران با هدف حل مشکل از دست دادن اطلاعات به دلیل نمونه برداری پایین و کارایی نامطلوب آشکارسازهای شی موجود در RSI ها. [ ۱۹ ] یک آشکارساز شی سرتاسر RSIها را بر اساس الگوریتم بهبود یافته YOLO پیشنهاد کرد، بنابراین کارایی تشخیص شی را در صحنه های پیچیده بهبود بخشید. با این حال، هنوز جای بهبود در استخراج و ترکیب اطلاعات متنی وجود دارد.

برای مقابله با مشکلات ذکر شده، این مقاله یک روش تشخیص شی سبک وزن را مطرح می کند که از راندمان محاسباتی بالایی برخوردار است. مشارکت های انجام شده در این پایان نامه را می توان به شرح زیر خلاصه کرد.

این مقاله یک روش تشخیص شی برای تصاویر هوایی پیشنهاد می‌کند. این روش نه تنها سبک وزن است، بلکه می تواند کار تشخیص دقیق و کارآمد را در RSI انجام دهد.
به منظور تقویت توانایی مدل برای تشخیص اشیاء کوچک و متوسط، اطلاعات معنایی و مکان در نقشه های ویژگی توسط ماژول استفاده مجدد از ویژگی (FRM) ترکیب شده است، که می تواند اطلاعات ویژگی استخراج شده از ستون فقرات را غنی کند.
یک شبکه تجمیع مسیر ترکیبی متراکم (DFF-PANet) با استفاده از بلوک متراکم باقیمانده متقاطع (CSRDB) طراحی شده است تا مشکل تداخل خارجی ناشی از RSI های پیچیده و قابل تغییر را بهتر مدیریت کند.
این مطالعه از مجموعه داده‌های DOTA و HRSC2016 برای آزمایش‌ها استفاده می‌کند تا مدلی را که ما ارائه کرده‌ایم تأیید کند و سپس اثرات هر بهبودی را که از طریق یک سری آزمایش‌های مقایسه‌ای و فرسایشی پیشنهاد کرده‌ایم تجزیه و تحلیل می‌کند.

ادامه این مقاله شامل بخش های زیر است. بخش ۲ الگوریتم های تشخیص شی و هرم ویژگی را بررسی می کند. در بخش ۳ ، شبکه پیشنهادی در این پایان نامه به تفصیل به تصویر کشیده شده است. در بخش ۴ ، ما نتایج آزمایش‌ها را بر روی مجموعه داده‌های DOTA و HRSC2016 ارائه می‌کنیم. بخش ۵ روش پیشنهادی را مورد بحث قرار می دهد. بخش ۶ به اختصار نتایج این پایان نامه را خلاصه می کند.

۲٫ آثار مرتبط

این بخش الگوریتم‌های تشخیص اشیاء موجود و دانش مربوط به هرم ویژگی را به طور خلاصه ارائه می‌کند.

۲٫۱٫ الگوریتم های تشخیص اشیا

الگوریتم های تشخیص اشیاء مبتنی بر CNN را می توان به دو دسته تقسیم کرد [ ۲۰]. یکی الگوریتم های تشخیص اشیا بر اساس لنگر-باکس است که انواع جعبه ها و برچسب های مرزی را تولید می کند. علاوه بر این، تعداد جعبه های مرزی باید به اندازه کافی زیاد باشد تا از همپوشانی کافی بین جعبه های مرزی و جعبه های حقیقت زمینی اطمینان حاصل شود. الگوریتم های تشخیص اشیاء بر اساس انکر باکس به دو دسته یک مرحله ای و دو مرحله ای تقسیم می شوند. آشکارسازهای شی یک مرحله ای سریع هستند، اما دقت آن به خوبی ردیاب های دو مرحله ای نیست. در حالی که در آشکارسازهای شی دو مرحله‌ای، مرحله استخراج منطقه مورد علاقه (RoI) باعث می‌شود دقت تشخیص بالا باشد، اما سرعت پایین‌تر از ردیاب‌های تک مرحله‌ای است. دیگری الگوریتم‌های تشخیص شی مبتنی بر بدون لنگر است، جعبه کاندید در روش منطقه کاندید و روش رگرسیون حذف می‌شود، سپس جعبه‌های لنگر با کیفیت بالا تولید می‌شوند.جدول ۱ .

۲٫۲٫ ویژگی هرم

هرم ویژگی به طور گسترده در شبکه های تشخیص اشیا برای شناسایی نمونه هایی در مقیاس های مختلف استفاده می شود. ساختار شبکه هرمی با ویژگی های مختلف [ ۲۱ ] در شکل ۲ نشان داده شده است . یک آشکارساز چند باکس تک شات (SSD) [ ۲۲ ] پیش‌بینی‌هایی را از طریق نقشه‌های ویژگی از وضوح‌های مختلف تولید شده در ستون فقرات انجام می‌دهد (همانطور که در شکل ۲ a، سلسله مراتب ویژگی‌های هرمی نشان داده شده است). اما سطوح مختلف باعث ایجاد شکاف معنایی می شود. نقشه های ویژگی های کم عمق وضوح بالایی دارند اما فاقد اطلاعات معنایی غنی هستند [ ۲۳ ]. عملکرد شناسایی اهداف کوچک ضعیف است. شبکه هرمی ویژگی [ ۲۳] به طور کامل اطلاعات معنایی نقشه های ویژگی عمیق و نقشه های کم عمق را با معرفی یک کانال از بالا به پایین و یک اتصال افقی (همانطور که در شکل ۲ ب، شبکه هرمی ویژگی نشان داده شده است) ترکیب می کند. با این حال، ادغام لایه ویژگی چند لایه نه تنها دقت بالایی را به ارمغان می آورد، بلکه مقدار زیادی از محاسبات را نیز به ارمغان می آورد. شبکه تجمیع مسیر [ ۲۴ ] نرخ استفاده از اطلاعات ویژگی های سطح پایین را با افزودن مسیرهای پایین به بالا بهبود می بخشد تا بازده انتقال اطلاعات سطح پایین [ ۲۴ ] را افزایش دهد (همانطور که در شکل ۲ نشان داده شده است.ج، شبکه تجمع مسیر). با این حال، هنوز اطلاعات از دست رفته در طول استخراج اطلاعات ویژگی در ستون فقرات وجود دارد و میزان استفاده از اطلاعات ویژگی در ستون فقرات باید بهبود یابد. ماژول استفاده مجدد از ویژگی چند سطحی پیشنهاد شده در مرجع [ ۲۱ ] (همانطور که در شکل ۲ d، ماژول استفاده مجدد از ویژگی چند سطحی نشان داده شده است) توانایی بیان اطلاعات ویژگی مدل را با استفاده مجدد از نقشه های ویژگی عمیق افزایش می دهد. با این حال، کارایی تشخیص آن برای اهداف متوسط نیاز به بهبود دارد. اگرچه ساختارهای شبکه فوق هنوز مشکلاتی برای رسیدگی دارند، اما نقش مهمی در عملکرد آشکارسازهای شی چند مقیاسی دارند و الهام‌بخشی برای کار آینده ما هستند.

۳٫ روش

در این بخش، ساختار شبکه بهبود یافته خود را به تفصیل توصیه می کنیم. چهار جنبه زیر را شرح خواهیم داد. (۱) ساختار کلی شبکه. (۲) ستون فقرات YOLOv5s. (۳) شبکه تجمیع مسیر ترکیبی متراکم. (۴) سر YOLO.

۳٫۱٫ ساختار کلی شبکه

ساختار کلی شبکه روش تشخیص ما در این مقاله در شکل ۳ نشان داده شده است. این شبکه از سه بخش تشکیل شده است، ستون فقرات YOLOv5s برای استخراج ویژگی، شبکه تجمیع مسیر ترکیبی متراکم (DFF-PANet) برای ترکیب ویژگی ها و YOLO Head برای شناسایی. ابتدا اطلاعات ویژگی های تصاویر ورودی را از طریق ستون فقرات استخراج کنید. برای تشخیص اندازه‌های مختلف اشیاء، ستون فقرات چندین وضوح متفاوت از نقشه‌های مشخصه را خروجی می‌دهد (به ترتیب ۶۴×۶۴، ۳۲×۳۲، ۱۶×۱۶ و ۸×۸). از میان آنها، سه نقشه ویژگی خروجی از ستون فقرات را به عنوان ورودی شبکه فیوژن فیچر انتخاب می کنیم. در مرحله بعد، اطلاعات ویژگی استخراج شده در اندازه های مختلف برای ترکیب ویژگی ها به DFF-PANet ارسال می شود که می تواند اطلاعات ویژگی را غنی کند. در نهایت، این لایه های ویژگی برای شناسایی به YOLO Head ارسال می شود.

تنظیمات ساختار شبکه در جدول ۲ نشان داده شده است. در ستون فقرات،

I n p u t \in R^{3 \times 256 \times 256}

تصویر ورودی را نشان می دهد. در این مقاله تانسور سه بعدی به صورت بیان شده است

X \in R^{C \times H \times W}

، جایی که

C

H

W

ابعاد کانال، ارتفاع و عرض نقشه ویژگی را نشان می دهد. تصویر ورودی با فوکوس برش داده می شود. بعد از فوکوس، نقشه ویژگی با اندازه

C \in R^{32 \times 128 \times 128}

تولید می شود. سپس،

C

از ستون فقرات استخراج می شود و چهار نقشه ویژگی با وضوح تصویر تولید می کند

C 1 \in R^{64 \times 64 \times 64}

C 2 \in R^{128 \times 32 \times 32}

C 3 \in R^{256 \times 16 \times 16}

C 4 \in R^{512 \times 8 \times 8}

، به ترتیب. در میان آنها، نقشه های ویژگی

C 3

C 4

برای ترکیب و تولید نقشه ویژگی با اندازه انتخاب می شوند

C 3^{'} \in R^{256 \times 16 \times 16}

توسط ماژول استفاده مجدد از ویژگی (FRM)، نقشه های ویژگی

C 2

C 3

C 4

برای ترکیب و تولید نقشه ویژگی با اندازه انتخاب می شوند

{C 2}^{'} \in R^{128 \times 32 \times 32}

توسط FRM FRM در بخش ۳٫۲ به تصویر کشیده خواهد شد . در DFF-PANet،

C 4

{C 3}^{'}

{C 2}^{'}

انتخاب می شوند تا برای ادغام ویژگی ها به گردن ارسال شوند (نقشه ویژگی، که با رنگ قرمز در جدول مشخص شده است). قابل ذکر است که

C 4

اشاره به آخرین نقشه ویژگی استخراج شده از ستون فقرات، در حالی که

{C 3}^{'}

{C 2}^{'}

به نقشه های ویژگی به دست آمده پس از FRM مراجعه کنید. در طول ادغام ویژگی، شبکه به طور مکرر از بالا به پایین و پایین به بالا فیوز می شود تا به دست آید

Y 1

Y 2

Y 3

رزولوشن های مختلف و ارسال آنها به YOLO Head برای پیش بینی. در YOLO Head به مراحل استنباط و آموزش تقسیم می شود. اگر مرحله استنتاج باشد، طبقه بندی و رگرسیون برای به دست آوردن خروجی نهایی انجام می شود. اگر مرحله تمرین باشد، ضرر محاسبه می‌شود و تمرین تکراری تا زمانی انجام می‌شود که ارزش ضرر دیگر کاهش پیدا نکند و تمرین به سمت پایداری گرایش پیدا کند.

۳٫۲٫ ستون فقرات YOLOv5s

مدل YOLOv5 را می توان به پنج مدل YOLOv5n، YOLOv5s، YOLOv5m، YOLOv5l و YOLOv5x تقسیم کرد. در حالی که در این شبکه، YOLOv5s در ستون فقرات برای بهبودهای بعدی استفاده می شود، که نه تنها پارامترهای شبکه کمتری دارد بلکه می تواند دقت بالایی را با سرعت بالا حفظ کند.

با این حال، از آنجایی که نقشه‌های ویژگی سطح پایین و سطح متوسط حاوی اطلاعات معنایی کمتری هستند، این نقشه‌های ویژگی پردازش اطلاعات ممکن است بر عملکرد تشخیص اشیاء کوچک و متوسط تأثیر بگذارد. ارتقای دقت تشخیص اشیاء کوچک و متوسط برای اطمینان از تعادل اطلاعات معنایی بین نقشه‌های ویژگی سطح پایین و سطح بالا اهمیت زیادی دارد. با الهام از مرجع [ ۲۱ ]، ما از ماژول استفاده مجدد از ویژگی (FRM) در ستون فقرات استفاده کردیم که مکانیزم استفاده مجدد کارآمد را برای ستون فقرات فراهم می کند. FRM در شکل ۴ نشان داده شده است . بیان ریاضی FRM را می توان به صورت زیر بیان کرد:

افآرمتی=ψتی{ x _تیمن(ایکسمن) }، ایکسمن∈ اس

(۱)

yمن=Ψr{yمن – ۱، اف آرمتی} ، r∈ R _

(۲)

جایی که $x$ نشان دهنده $C 1$ نقشه ویژگی در ستون فقرات پس از فوکوس. $S$ نشان دهنده نقشه های ویژگی برای استفاده مجدد در ستون فقرات ( $C 2$ و $C 3$ به ترتیب) که لایه منبع نامیده می شود. $T_{i}$ نشان دهنده عملیات تبدیلی است که لایه منبع را به همان وضوح تبدیل می کند. $ψ_{t}$ برای استفاده مجدد از لایه منبع پس از تبدیل وضوح استفاده می شود و یک لایه جدید ایجاد می کند $F R M_{t}$ . $y_{i}$ نقشه ویژگی هرم بعدی را نشان می دهد. $ψ_{r}$ به عنوان تلفیقی از نقشه ویژگی هرم لایه قبلی استفاده می شود $y_{i - 1}$ و $F R M_{t}$ .

استراتژی تبدیل $T_{i}$ : ابتدا از لایه کانولوشنال ۱ × ۱ برای کاهش ابعاد هر لایه منبع استفاده می شود. در مرحله بعد، با استفاده از درون یابی دوخطی، مقیاس به مقیاسی هم اندازه با کانولوشن برای ذوب شدن تبدیل می شود، بنابراین لایه منبع با وضوح تبدیل شده تولید می شود. ${C 2}^{'}$ و ${C 3}^{'}$ ، به ترتیب). شایان ذکر است که نرمال سازی BatchNorm [ ۳۱ ] و تابع فعال سازی ReLU [ ۳۲ ] به هر لایه کانولوشنی conv1 × ۱ اضافه می شود تا مشکل ناپدید شدن گرادیان و انفجار گرادیان در طول انتشار پس از انتشار را مدیریت کند.
استفاده مجدد از ویژگی $ψ_{t}$ : پس از فرآیند تبدیل استراتژی T _i ، نقشه های ویژگی جدید تولید می شوند ( ${C 2}^{'}$ و ${C 3}^{'}$ ، به ترتیب). برای استفاده مجدد، دو روش جداگانه برای ادغام نقشه‌های ویژگی جدید وجود دارد $C 1$ ، الحاق و عملیات جمع عناصر. عملیات الحاق اغلب برای تشخیص تصویر استفاده می شود، که می تواند ویژگی های کانولوشن استخراج شده را ترکیب کند و اطلاعات را حفظ کند و در عین حال ابعاد را افزایش دهد. عملیات جمع عناصر اغلب برای طبقه بندی تصویر استفاده می شود که می تواند اطلاعات تصویر را افزایش دهد و در عین حال افزایش اطلاعات را حفظ کند. بنابراین، ما از عملیات الحاق برای استفاده مجدد از اطلاعات ویژگی ستون فقرات استفاده می کنیم تا ویژگی های استفاده مجدد به عنوان ورودی DFF-PANet استفاده شوند.
ادغام ویژگی $ψ_{r}$ : بعد از $F R M_{t}$ ایجاد می شود، با نقشه ویژگی هرمی لایه قبلی به DFF-PANet ارسال می شود (در بخش ۳٫۳ معرفی خواهد شد ). $y_{i - 1}$ برای ادغام ویژگی، و نقشه ویژگی های هرم بعدی $y_{i}$ تولید می شود.

۳٫۳٫ شبکه تجمیع مسیر ترکیبی متراکم (DFF-PANet)

برای پیگیری دقت تشخیص بالاتر، معمولاً دو استراتژی برای انتخاب وجود دارد. یکی بهبود ستون فقرات برای استخراج ویژگی، و دیگری بهبود گردن برای همجوشی ویژگی [ ۲۱ ]. برای استراتژی تقویت ستون فقرات، معمولاً به مقدار زیادی از محاسبات منجر می شود که سرعت تشخیص را محدود می کند و بهبود آن را دشوار می کند. از این رو، ما تقویت شبکه را از طریق بهبود گردن در نظر می گیریم.

اکثر اجسام هوایی در RSI نسبت‌های متفاوتی دارند، اما کانولوشن معمولی نمی‌تواند از ویژگی‌های سلسله مراتبی در نقشه‌های ویژگی اصلی استفاده کامل کند، بنابراین به عملکرد نسبتاً پایینی دست می‌یابد. برای ترکیب بهتر اطلاعات ویژگی از ستون فقرات، ماژول Cross Stage Partial (CSP) شبکه فیوژن ویژگی را در ساختار اصلی شبکه YOLOv5 بهبود دادیم. با الهام از مرجع [ ۳۳ ]، بلوک متراکم باقیمانده (RDB) برای بهینه سازی ماژول CSP استفاده شد و DFF-PANet به دست آمد. ماژول Cross Stage Residual Dense Block (CSRDB) در شکل ۵ نشان داده شده است .

همانطور که در شکل ۵ مشاهده می شود ، ماژول CSRDB لایه CBS را در ماژول CSP به یک بلوک متراکم باقیمانده بهبود داد، بنابراین DFF-PANet را تشکیل داد. ما به طور کامل اطلاعات ویژگی استخراج شده از ستون فقرات را با توانایی ترکیب ویژگی قوی RDB ترکیب کردیم. ساختار شبکه RDB در شکل ۶ نشان داده شده است .

RDB به ترتیب از یک لایه اتصال متراکم، ترکیب ویژگی های محلی و یادگیری باقی مانده محلی تشکیل شده است که یک مکانیسم حافظه پیوسته را تشکیل می دهد. این مکانیسم از طریق انتقال وضعیت لایه کانولوشنی قبلی به لایه کانولوشن فعلی [ ۳۳ ] تحقق می یابد. اجازه دهید

F_{R D B - 1}

F_{R D B}

لایه اول و آخر RDB باشد.

لایه اتصال متراکم: در این ماژول، لایه اتصال متراکم از ۶ لایه کانولوشن برای اتصال متراکم با نرخ رشد ۳۲ تشکیل شده است. $F_{R D B, 1}$ خروجی کانولوشن اول را نشان می دهد. $F_{R D B, c}$ خروجی هر پیچیدگی میانی را نشان می دهد. در این مقاله، $c \in {2, 3, 4, 5}$ . $F_{R D B, c}$ خروجی آخرین پیچیدگی را نشان می دهد. در این مقاله، $C = 6$ . با در نظر گرفتن هر کانولوشن میانی به عنوان مثال، خروجی کانولوشن توسط لایه قبلی RDB و تمام پیچیدگی ها در RDB به هم متصل می شود، سپس توسط لایه کانولوشن و تابع فعال سازی ReLU محاسبه می شود، در نهایت خروجی به دست می آید. قابل ذکر است که تمامی کانولوشن ها در RDB به کانولوشن های کانولوشن اول تا کانولوشن قبلی این کانولوشن اشاره دارد. بیان ریاضی آن را می توان به صورت زیر نشان داد:

$اف R D B, C = σ (دبلیو R D B, C [اف R D B - ۱ ، اف R D B ، ۱, \dots, اف R D B ، ج - ۱])$

(۳)

جایی که $σ$ نشان دهنده تابع فعال سازی ReLU است. $W_{R D B, c}$ نشان دهنده وزن $c$ لایه کانولوشن. لایه اتصال متراکم باعث می شود که CBS و خروجی هر لایه به طور مستقیم به تمام لایه های بعدی متصل شود، که نه تنها ویژگی های پیشخور را حفظ می کند بلکه ویژگی های متراکم محلی را نیز استخراج می کند.
ترکیب ویژگی های محلی: همه ویژگی ها در RDB به صورت محلی با الحاق ترکیب می شوند. علاوه بر این، لایه کانولوشنال ۱ × ۱ برای کاهش ابعاد و کنترل تطبیقی اطلاعات خروجی معرفی شده است. بیان ریاضی آن را می توان به صورت زیر بیان کرد:

$اف R D B ، L F = اچ R D B L F اف ([اف R D B - ۱ ، اف R D B ، ۱, \dots, اف R D B ، ج - ۱ ، اف R D B ، C])$

(۴)

جایی که $H_{L F F}^{R D B}$ لایه کانولوشنال ۱×۱ را در RDB نشان می دهد. ادغام ویژگی های محلی می تواند به طور تطبیقی ویژگی های کانولوشنال قبلی و همه ویژگی های کانولوشنال در RDB فعلی را ترکیب کند.
یادگیری باقی مانده محلی: یادگیری باقی مانده محلی می تواند جریان اطلاعات بین اطلاعات ویژگی قبل از RDB و ویژگی های متراکم محلی پردازش شده توسط RDB را ارتقا دهد. بیان ریاضی خروجی نهایی RDB را می توان به صورت زیر بیان کرد:

$اف R D B = اف R D B - ۱ + اف R D B ، L F$

(۵)

جایی که $F_{R D B, L F}$ نشان دهنده اطلاعات ویژگی پس از ادغام ویژگی محلی است. یادگیری باقیمانده محلی نه تنها شامل ویژگی های قبل از RDB بلکه ویژگی های متراکم محلی بعد از RDB است.

RDB اجازه می دهد تا لایه های کانولوشن قبلی مستقیماً به لایه کانولوشنال فعلی متصل شوند تا مکانیزم حافظه پیوسته را تشکیل دهند. ترکیب ویژگی های محلی برای یادگیری ویژگی های مفید محلی به صورت تطبیقی معرفی شده است. پس از به دست آوردن ویژگی های متراکم محلی، ترکیب ویژگی های جهانی برای حفظ ویژگی های تجمعی و یادگیری ویژگی های جهانی استفاده می شود.

۳٫۴٫ سر یولو

YOLO Head عمدتا دارای دو مرحله استنتاج و آموزش است. در استنباط، مدل از وزنه های تمرین شده برای به دست آوردن موقعیت جعبه مرزی استفاده می کند. در حین تمرین، مدل ضرر را محاسبه کرده و از طریق آموزش تکراری کاهش می‌دهد. هنگامی که ضرر دیگر کاهش نمی یابد، آموزش تمایل به پایداری دارد و می توان پارامترهای مدل بهتری را به دست آورد.

۳٫۴٫۱٫ استنتاج

پس از ترکیب ویژگی ها در DFF-PANet، ویژگی ها برای شناسایی به YOLO Head ارسال می شوند. در این پایان نامه، ما از سه مقیاس تشخیص مختلف برای شناسایی نمونه هایی با اندازه های مختلف استفاده می کنیم. $32 \times 32$ ، $16 \times 16$ و $8 \times 8$ ، به ترتیب. گرفتن $8 \times 8$ مقیاس تشخیص به عنوان مثال، شبکه تصویر ورودی را به تقسیم می کند $8 \times 8$ شبکه‌ها، هر نقطه شبکه با سه لنگر باکس با اندازه‌های مختلف از پیش تنظیم شده است. اگر مرکز یک شی در شبکه بیفتد، شبکه مسئول شیء است. هر شبکه سه جعبه مرزی را پیش‌بینی می‌کند، هر جعبه مرزی شامل پنج پارامتر است. $x$ -هماهنگ كردن، $y$ -به ترتیب مختصات، عرض، ارتفاع و اطمینان نقطه مرکزی جسم. سپس، شبکه به طور مکرر مقدار تلفات را از طریق انتشار به عقب محاسبه می کند، به طور مداوم ویژگی های لنگر باکس را تنظیم می کند و در نهایت انکر باکس های اضافی را توسط NMS فیلتر می کند. مختصات جعبه مرزی پیش بینی شده را می توان به صورت زیر بیان کرد:

ب ایکس = ۲ σ (تی ایکس) - ۰٫۵ + ج ایکس

(۶)

ب y = ۲ σ (تی y) - ۰٫۵ + ج y

(۷)

ب w = پ w (۲ σ (تی w)) ۲

(۸)

ب ساعت = پ ساعت (۲ σ (تی ساعت)) ۲

(۹)

σ (x) = ۱ ۱ + ه - x

(۱۰)

جایی که $b_{x}$ و $b_{y}$ هستند $x$ و $y$ – مختصات نقطه مرکزی جعبه پیش بینی. $b_{w}$ و $b_{h}$ عرض و ارتفاع جعبه پیش بینی هستند. $b_{x}$ ، $b_{y}$ ، $b_{w}$ و $b_{h}$ مختصات جعبه پیش بینی را تعیین کنید. $t_{x}$ و $t_{y}$ انحراف نقطه مرکز شی نسبت به گوشه سمت چپ بالای شبکه که نقطه در آن قرار دارد. $t_{w}$ و $t_{h}$ عرض و ارتفاع جعبه مرزی پیش بینی شده است. $t_{x}$ ، $t_{y}$ ، $t_{w}$ و $t_{h}$ پارامترهایی هستند که از طریق یادگیری تکراری به دست می آیند. $c_{x}$ و $c_{y}$ انحراف شبکه ای هستند که نقطه مرکز شی نسبت به گوشه سمت چپ بالای تصویر قرار دارد. $p_{w}$ و $p_{h}$ عرض و ارتفاع انکر باکس هستند. $σ (x)$ تابع برای کنترل افست مرکز شی در واحد شبکه مربوطه معرفی شده است. نمودار تولید جعبه پیش بینی در شکل ۷ نشان داده شده است .

۳٫۴٫۲٫ آموزش

برای شبکه پیشنهادی در این پایان نامه، تابع ضرر کلی را می توان به صورت زیر بیان کرد:

L o s s = λ ۱ L B o x + λ ۲ L O b j + λ ۳ L سی l s

(۱۱)

جایی که $L_{B o x}$ ، $L_{O b j}$ و $L_{C l s}$ به ترتیب تابع از دست دادن رگرسیون جعبه مرزی، تابع از دست دادن اطمینان و تابع از دست دادن طبقه بندی را نشان می دهد. فراپارامترها $λ_{1}$ ، $λ_{2}$ و $λ_{3}$ تنظیمات پیش فرض هستند ${1, 1, 1}$ . تابع تلفات رگرسیون جعبه مرزی توسط Complete Intersection over Union (CIoU) محاسبه می شود، تابع از دست دادن اطمینان و تابع از دست دادن طبقه بندی توسط Binary Cross Entropy With Logits Loss (BCEWithLogitsLoss) [ ۳۴ ] محاسبه می شود. فرمول BCEWithLogitsLoss به شرح زیر است:

B C E دبلیو i t h L o g i t s L o s s = - \sum n = ۱ ن [ایکس من * ورود به سیستم (δ (x)) + (۱ - ایکس من *) log (δ (۱ - x))]

(۱۲)

جایی که $N$ تعداد بردارهای ورودی است. $x_{i}^{*}$ و $x$ بردار پیش بینی و بردار واقعی مربوطه هستند. $σ (x)$ تابع سیگموئید است.

(۱): تابع از دست دادن رگرسیون جعبه مرزی

CIoU Loss [ ۳۵ ] برای محاسبه افت موقعیت جعبه پیش بینی و جعبه حقیقت زمینی معرفی شده است. بیان ریاضی آن را می توان به صورت بیان کرد

$C I o U = I o U - ρ ۲ ( P b o x , T b o x ) c 2 - a v$

(۱۳)

$a = v 1 - I o U + v$

(۱۴)

$v = ۴ π ۲ (a r c t a n w g تی ساعت g تی - a r c t a n w ساعت) ۲$

(۱۵)

$L B o x = ۱ - I o U + ρ ۲ ( پ b o x ، تی b o x ) ج ۲ + a v$

(۱۶)

جایی که $w$ و $h$ عرض و ارتفاع جعبه پیش بینی هستند $P_{b o x} \in R^{N_{t} \times (x_{c}, y_{c}, w, h)}$ ، به ترتیب. $w^{g t}$ هستند $h^{g t}$ عرض و ارتفاع جعبه حقیقت زمین است $T_{b o x} \in R^{N_{t} \times (x_{c}, y_{c}, w, h)}$ ، به ترتیب. N _t تعداد اشیاء است. $a$ ضریب وزنی است. $v$ فاصله نسبت ابعاد بین جعبه پیش بینی و جعبه حقیقت زمین است.
(۲): عملکرد از دست دادن اعتماد به نفس

$L O b j = \sum من ن پ B C E دبلیو i t h L o g من خیلی زود (____پ o b j ، تی o b j)$

(۱۷)

جایی که $N_{p}$ تعداد کانال های لایه پیش بینی است، پیش فرض ۳ است. $P_{o b j} \in R^{N_{p} \times w_{i} \times h_{i}}$ بردار پیش بینی است. $T_{o b j} \in R^{N_{p} \times w_{i} \times h_{i}}$ بردار واقعی است. $w_{i} (i = 1, 2, 3)$ عرض لایه پیش بینی است. $h_{i} (i = 1, 2, 3)$ ارتفاع لایه پیش بینی است.
(۳): تابع از دست دادن طبقه بندی

$L سی l s = \sum i N p B C E W i t h L o g i t s L o s s (P c l s, T c l s)$

(۱۸)

جایی که $N_{p}$ شماره کانال لایه پیش بینی است، پیش فرض ۳ است. $P_{c l s} \in R^{N_{t} \times N_{c}}$ توزیع احتمال پیش بینی هر دسته است. $T_{c l s} \in R^{N_{t} \times N_{c}}$ توزیع احتمال واقعی هر دسته است. $N_{t}$ تعداد اشیا است. $N_{c}$ تعداد دسته ها است.

۳٫۵٫ شبه کد ساختار شبکه

شبه کد روش پیشنهادی ما در الگوریتم ۱ نشان داده شده است.

الگوریتم ۱: یک روش تشخیص سبک وزن.
ورودی:	$I n p u t \in R^{3 \times 256 \times 256}$ ، $I n p u t$ به تصویر ورودی اشاره دارد.
مرحله ۱:	$x = F o c u s (I n p u t), x \in R^{32 \times 128 \times 128}$ ، $x$ برای به دست آوردن نقشه های ویژگی به ستون فقرات ارسال می شود $X = {x_{1}, x_{2}, x_{3}, x_{4}}$ .
گام ۲:	$F = {}$ ، $F$ به نقشه های ویژگی اشاره دارد که برای ترکیب ویژگی ها به DFF-PANet ارسال می شوند. برای k در محدوده (۱،۴) اگر $k = 1$ سپس ادامه دهید : if $k = 2$ : $F_{k} \Leftarrow F R M (x_{k}, x_{k + 1}, x_{k + 2})$ اگر $k = 3 : F_{k} \Leftarrow F R M (x_{k}, x_{k + 1})$ اگر $k = 4 : F_{k} \Leftarrow F R M (x_{k})$ پایان اگر $F = F . a p p e n d (F_{k})$ پایان برای
مرحله ۳:	$F$ به DFF-PANet ارسال می شود، سه نقشه ویژگی با اندازه های مختلف $Z = {z_{1}, z_{2}, z_{3}}$ تولید می شوند.
خروجی:	$R e s u l t s \Leftarrow C l a s s i f i c a t i o n () & R e g r e s s i o n ()$ برگشت $R e s u l t s$

۴٫ آزمایشات

ما روش پیشنهادی را روی مجموعه داده‌های DOTA [ ۳۶ ] و HRSC2016 [ ۳۷ ] آزمایش کردیم و آن را با روش‌های دیگر مقایسه کردیم تا کارایی روش خود را ارزیابی کنیم. این بخش مجموعه داده، آموزش شبکه، نتایج تجربی و غیره را ارائه می دهد.

۴٫۱٫ مجموعه داده

۴٫۱٫۱٫ مجموعه داده DOTA

مجموعه داده DOTA [ ۳۶ ] یک مجموعه داده سنجش از دور نوری در مقیاس بزرگ برای تشخیص اشیا در RSI های هوایی است که دارای ۲۸۰۶ تصویر هوایی است که از سنسورها و پلتفرم های مختلف، از جمله ۱۵ دسته، هواپیما، الماس بیسبال، پل، میدان زمینی، کوچک به دست آمده است. وسیله نقلیه، وسیله نقلیه بزرگ، کشتی، زمین تنیس، زمین بسکتبال، مخزن ذخیره سازی، زمین توپ فوتبال، میدان دور، بندر، استخر و هلیکوپتر. برای تجسم اندازه و مکان اشیاء در مجموعه داده DOTA، نقشه های حرارتی برای نشان دادن آنها معرفی می شوند. نقشه حرارتی توزیع مجموعه داده DOTA در شکل ۸ نشان داده شده است . همانطور که از این شکل مشاهده می شود، مجموعه داده دارای اشیایی با اندازه های مختلف با توزیع مکان یکنواخت است.

ما مجموعه داده را به ۱۴۱۱ در مجموعه آموزشی، ۴۵۸ در مجموعه اعتبار سنجی و ۹۳۷ در مجموعه آزمایشی تقسیم کردیم. برچسب‌های مجموعه داده از جعبه‌های مرز افقی، با مجموع ۱۸۸۲۸۲ نمونه تشکیل شده‌اند. به دلیل بزرگ بودن تصاویر در مجموعه داده DOTA، تصاویر اصلی را به ۱۰۲۴ × ۱۰۲۴ پیکسل با مساحت همپوشانی ۲۰۰ برش دادیم. پس از برش تصاویر، ۱۵۷۴۹ تصویر برای آموزش، ۵۲۹۷ تصویر برای اعتبارسنجی و ۱۰۰۱۹ تصویر برای آزمایش استفاده می شود.

۴٫۱٫۲٫ مجموعه داده HRSC2016

مجموعه داده HRSC2016 [ ۳۷ ] یک مجموعه داده رایج از RSI های نوری است که برای تشخیص کشتی استفاده می شود. این مجموعه داده شامل ۱۰۶۱ RSI با وضوح بین ۰٫۴ تا ۲ متر و اندازه تصویر از ۳۰۰ × ۳۰۰ تا ۱۵۰۰ × ۹۰۰ پیکسل از شش پورت مختلف است. ما تصاویر را به ۴۳۶ مجموعه آموزشی، ۱۸۱ مجموعه تایید و ۴۴۴ مجموعه تست تقسیم می کنیم. برچسب‌های مجموعه داده از جعبه‌های مرز افقی تشکیل شده‌اند. مجموعه داده شامل تعداد زیادی کشتی با نسبت ابعاد بزرگ مانند کشتی های جنگی، ناوهای هواپیمابر و کشتی های باری است.

۴٫۲٫ آموزش شبکه

۴٫۲٫۱٫ تنظیم پارامتر

محیط این آزمایش به شرح زیر است. زبان برنامه نویسی مورد استفاده در آزمایش Python 3.8 است، مدل در چارچوب یادگیری عمیق PyTorch 1.10.1 مستقر شده است، سیستم عامل Ubuntu 20.04.3 LTS، پلت فرم سخت افزاری Inter (R) Xeon (R) Silver 4114 CPU است. @ ۲٫۲۰ گیگاهرتز با دو عدد Quadro P4000 8 گیگابایت حافظه.

پارامترهای قبل از تمرین به شرح زیر نشان داده شده است. اندازه تصویر ورودی ۶۴۰ × ۶۴۰، اندازه دسته ای ۱۶، بهینه سازی شیب تصادفی (SGD)، تکانه ۰٫۹، کاهش وزن ۰٫۰۰۰۵، نرخ یادگیری اولیه ۰٫۰۱ و دوره های آموزشی ۳۰۰ نسل است. ما همین پارامترها را برای سایر روش های مقایسه تنظیم می کنیم. پارامترهای آموزش اولیه سازی در جدول ۳ نشان داده شده است.

۴٫۲٫۲٫ معیارهای ارزیابی

دقت، درستی $P$ , Recall R , Average Precision $A P$ ، به معنای دقت متوسط $m A P$ و $F 1 - S c o r e$ برای ارزیابی کمی توانایی تشخیص روش پیشنهادی ما انتخاب شده‌اند. فرمول P ، R و $A P$ به شرح زیر است:

پ r e c i s i o n (P) = تی پ تی پ + اف پ

(۱۹)

R e c a l l (R) = تی پ تی پ + اف ن

(۲۰)

A P = 🔻 ۱ ۰ پ (ر) د آر

(۲۱)

جایی که $T P$ مثبت واقعی است. نمونه های مثبت به عنوان نمونه های مثبت پیش بینی می شوند. $F P$ مثبت کاذب است. نمونه های منفی به عنوان نمونه های مثبت پیش بینی می شوند. FN منفی کاذب است. نمونه های مثبت به عنوان نمونه های منفی پیش بینی می شوند. $A P$ دقت متوسط است، یعنی ناحیه اطراف منحنی دقت-یادآوری (منحنی PR)، که برای جلوگیری از عدم تعادل بین دقت و یادآوری استفاده می شود. $A P$ مقدار بین ۰ و ۱ است. هر چه ناحیه محصور شده توسط منحنی PR بزرگتر باشد، عملکرد مدل بهتر است. را $m A P$ میانگین است $A P$ از همه دسته ها در مجموعه داده فرمول به شرح زیر است:

m A P = 1 ک \sum n = ۱ ک 🔻 ۱ ۰ پ n (آر n) د آر n

(۲۲)

جایی که $K$ تعداد کل کلاس ها است. $R_{n}$ فراخوانی یک کلاس مشخص است $n$ . $P_{n} (R_{n})$ دقت در هنگام فراخوانی کلاس است $R_{n}$ .

ما همچنین از شاخص اندازه گیری استفاده می کنیم $F 1 - S c o r e$ برای متعادل کردن رابطه بین دقت و یادآوری بهتر. هر چه مقدار بزرگتر باشد، عملکرد مدل بهتر است. فرمول به شرح زیر است:

اف ۱ - اس c o r e = ۲ \times پ r e c i s i o n \times R e c a l l P r e c i s i o n + R e c a l l

(۲۳)

علاوه بر این، به منظور تشخیص بهتر قابلیت تشخیص چند مقیاسی روش ما، معیارهای ارزیابی COCO [ ۱۵ ] را نیز اتخاذ کردیم، از جمله

A P_{50}

A P_{75}

A P_{S}

A P_{M}

A P_{L}

، جایی که

A P_{50}

مقدار AP وقتی است

I o U = 0.5

( نشانگر mAP مورد استفاده در این مقاله همان است

A P_{50}

A P_{75}

هست

A P

ارزش زمانی که

I o U = 0.75

A P_{S}

هست

A P

ارزش یک شی کوچک (

a r e a < 32^{2}

A P_{M}

هست

A P

مقدار یک شیء متوسط (

32^{2} < a r e a < 96^{2}

A P_{L}

هست

A P

ارزش یک جسم بزرگ (

a r e a > 96^{2}

). لازم به ذکر است که در تمامی آزمایشات،

I o U

آستانه روی ۰٫۶ تنظیم شد که می تواند با توجه به برنامه واقعی تنظیم شود تا تشخیص نادرست و اشتباه را متعادل کند.

۴٫۳٫ نتایج تجربی

۴٫۳٫۱٫ نتایج تجربی در مجموعه داده DOTA

ما آزمایش‌هایی را روی مجموعه داده DOTA انجام دادیم تا اعتبار روش پیشنهادی خود را تأیید کنیم و روش خود را با روش‌های رایج تشخیص اشیاء یک مرحله‌ای، مانند SSD [ ۲۲ ]، YOLOv2 [ ۱۱ ]، RetinaNet [ ۲۵ ]، تجمیع ویژگی‌های تطبیقی مقایسه کردیم. شبکه (AFANet) [ ۳۸ ]، انتخاب لنگر خود تطبیقی (A2S-Det) [ ۳۹ ] و YOLOv5، به ترتیب، و شبکه‌های دو مرحله‌ای، مانند شبکه هرمی با ویژگی چرخشی (R-DFPN) [ ۴۰ ]، سریع‌تر شبکه عصبی کانولوشنال منطقه ای (R-CNN سریعتر) [ ۲۸ ]، شبکه های پیشنهادی منطقه چرخشی (RRPN) [ ۴۱ ]، آبشار تصویر و شبکه هرمی ویژگی (ICN) [ ۴۲ ]] و RoI Transformer (RoI Trans.) [ ۴۳ ]، به ترتیب. برای نمایش بهتر نتایج، همانطور که در جدول ۴ نشان داده شده است، به هر دسته از مجموعه داده یک نام مربوطه می دهیم .

جدول ۵نتایج مقایسه دقت تشخیص شی را بین آشکارساز ما و سایر آشکارسازها در مجموعه داده DOTA نشان می دهد. همانطور که از جدول مشاهده می شود، روش ما در بین تمام روش های مقایسه به نتیجه مطلوب می رسد، با mAP به ۷۱٫۵٪ می رسد که از اکثر آشکارسازهای شی تک مرحله ای و دو مرحله ای در حال حاضر فراتر می رود. همانطور که در جدول نشان داده شده است، mAP ما تقریباً ۱۰٪ بیشتر از R-DFPN است، روش های تشخیص سریعتر R-CNN و RRPN، وسایل نقلیه کوچک (SV) و کشتی (SH) حدود ۲۰٪ در بین دسته ها بالاتر هستند. از آنجایی که اندازه این دسته‌ها کوچک است، این مدل‌ها فاقد قابلیت استخراج ویژگی برای اهداف کوچک هستند که منجر به عملکرد شناسایی ضعیف برای اهداف کوچک می‌شود.

پانزده کلاس در مجموعه داده DOTA وجود دارد، شبکه ای که ما پیشنهاد کردیم دارای کارایی تشخیص در سه کلاس برتر برای اکثر کلاس ها است. در میان آنها، کارایی تشخیص اجسامی که به طور متراکم چیده شده اند قابل توجه است، به عنوان مثال، خودروهای بزرگ (LV) و کشتی (SH). ثانیاً، عملکرد تشخیص اجسام در پس‌زمینه‌های پیچیده نیز به عملکرد خوبی رسیده است، مانند هواپیما (PL) و زمین تنیس (TC). در همین حال، هلیکوپتر (HC) که اغلب از دست می‌رود یا به اشتباه به عنوان هواپیما (PL) شناسایی می‌شود، نیز دقتی حدود ۵ درصد بالاتر از دقت زیر بهینه دارد. قابل ذکر است که نتایج تشخیص این دسته بندی ها همگی در سه رتبه اول قرار دارند. به این دلیل است که FRM مورد استفاده ما امکان استفاده کامل از اطلاعات ویژگی ها را در ستون فقرات فراهم می کند. و قابلیت فیوژن ویژگی قوی DFF-PANet پیشنهادی، مشکلات تشخیص شی در RSIها را به دلیل عوامل تداخل خارجی بیش از حد تا حدی حل می کند. این نتایج تجربی نشان‌دهنده در دسترس بودن و استحکام روش ما است.

برای ارزیابی بهتر اعتبار تشخیص روش پیشنهادی ما، منحنی‌های PR و AP-Epoch را نیز ترسیم کردیم تا در دسترس بودن روش پیشنهادی خود را تأیید کنیم. منحنی PR در مجموعه داده DOTA در شکل ۹ نشان داده شده است . برای محاسبه دقت و فراخوانی از IoU = 0.6 استفاده کردیم. همانطور که از منحنی PR مشاهده می شود، عملکرد تشخیص روش بهبود یافته ما پس از ادغام دقت و یادآوری بالاتر از YOLOv5 است. منحنی AP-Epoch در مجموعه داده DOTA در شکل ۱۰ نشان داده شده است . ما تغییرات AP را در ۳۰۰ دوره نشان می دهیم. همانطور که از منحنی AP-Epoch مشخص است، AP روشی که ما ارائه کردیم بالاتر از YOLOv5 است.

مقادیر Precision، Recall و AP در مجموعه داده DOTA در جدول ۶ نشان داده شده است. همانطور که ظاهراً در جدول نشان داده شده است، در مقایسه با YOLOv5، دقت روشی که ما ارائه کردیم ۱٫۸٪ کمتر است و فراخوانی ۱٫۱٪ بیشتر از روش اصلی است. اگرچه دقت روش ما ۱٫۸٪ کمتر از روش اصلی بدون بهبود است، کارایی یک مدل را نمی توان تنها با دقت یا یادآوری ارزیابی کرد، در حالی که امتیاز F1 می تواند رابطه بین دقت و یادآوری را به طور جامع در نظر بگیرد. از نظر امتیاز F1 به ۷۲٫۸ درصد رسیدیم. علاوه بر این، مدل بهبود یافته ما نه تنها ارزش بهتری از ۷۱٫۵٪ دریافت می کند

A P_{50}

، اما همچنین ۱٫۰٪ افزایش می یابد

A P_{75}

در مقایسه با قبل از بهبود. که در

A P_{S}

A P_{M}

A P_{L}

مدل ما به ترتیب ۰٫۷٪، ۱٫۳٪ و ۱٫۲٪ افزایش می یابد، که نشان می دهد مدل پیشنهادی می تواند عملکرد تشخیص اجسام با اندازه های مختلف را تقویت کند. از نظر زمان استنتاج، روش ما از ۳٫۳ به ۴٫۶ میلی ثانیه افزایش یافته است. اگرچه سرعت استنتاج کاهش یافته است، اما هنوز نیازهای تشخیص بلادرنگ را برآورده می کند (بیش از ۳۰ فریم؛ یعنی زمان استنتاج کمتر از ۳۳٫۳ میلی ثانیه است) [ ۴۴ ]. این نشان می‌دهد که روش پیشنهادی نه تنها بار زیادی بر روی سرعت تشخیص وارد نمی‌کند، بلکه عملکرد تشخیص را بهبود می‌بخشد و تعادل بهتری بین سرعت و دقت به دست می‌آورد.

۴٫۳٫۲٫ نتایج تجربی در مجموعه داده HRSC2016

جدول ۷ نتایج مقایسه دقت تشخیص شی را بین روش پیشنهادی ما و سایر روش‌ها در مجموعه داده HRSC2016 نشان می‌دهد. در روش‌هایی که ما مقایسه می‌کنیم، روش‌های تشخیص شی تک مرحله‌ای شامل شبکه‌های پیشنهادی منطقه چرخشی (RRPN) [ ۴۱ ]، شبکه‌های پیشنهادی منطقه چرخشی و تبعیض (R2 ^PN ) [ ۴۵ ]، ترانسفورماتور RoI (RoI Trans.) [ ۴۳ ]، برچسب‌های کدگذاری متراکم (DCL) [ ۴۶ ] و YOLOv5. روش‌های تشخیص شی دو مرحله‌ای شامل RetinaNet [ ۲۵ ]، آشکارساز رگرسیون حساس به چرخش (RRD) [ ۴۷ ]، آشکارساز حساس به چرخش (RSDet) [ ۴۸ ]، یادگیری لنگر پویا (DAL) [ ۴۹ ]]، آشکارساز تک مرحله ای Refi Ned (R3Det) [ ۵۰ ] و RepVGG-YOLO [ ۵۱ ]. از جدول می توان دریافت که روش پیشنهادی ما بهترین نتیجه را در بین تمام روش های مقایسه به دست می آورد، با mAP به ۹۳٫۳٪، که ۱٫۸ درصد بیشتر از روش زیر بهینه (RepVGG-YOLO) است. نتایج تجربی نشان می‌دهد که روش پیشنهادی می‌تواند به نتایج تشخیص بهتری حتی برای اهداف کشتی با نسبت ابعاد بزرگ دست یابد. ثانیاً، اگرچه زمان استنتاج (۴٫۰ میلی ثانیه) مدل پیشنهادی ما کمتر از YOLOv5 است، روش ما به مراتب از روش‌های دیگر برتری دارد و در دقت مزیت زیادی دارد، بنابراین رتبه دوم در سرعت قابل قبول است. جدول ۷نشان می دهد که روش پیشنهادی هر دو الزامات دقت و سرعت برای تشخیص شی را برآورده می کند.

در همان زمان، منحنی‌های PR و Loss نیز برای تأیید اثربخشی روش پیشنهادی ما ترسیم می‌شوند. منحنی PR در مجموعه داده HRSC2016 در شکل ۱۱ نشان داده شده است . از منحنی PR می توان دریافت که منحنی روش پیشنهادی همیشه بالاتر از YOLOv5 است و این نشان می دهد که دقت تشخیص مدل نسبت به YOLOv5 برتر است. منحنی Loss در مجموعه داده HRSC2016 در شکل ۱۲ نشان داده شده است . ما تغییرات ارزش ضرر را در ۳۰۰ دوره نشان می دهیم. از روی منحنی Loss می توان دریافت که منحنی روند نزولی را نشان می دهد و در نهایت به محدوده خاصی همگرا می شود. ثانیا، نرخ همگرایی مدل بهبود یافته سریعتر از YOLOv5 است، که نشان می دهد روش ما عملکرد تشخیص بهتری دارد.

۴٫۴٫ نتایج تجسم

نتایج تجسم مدل بر روی مجموعه داده DOTA در شکل ۱۳ نشان داده شده است. شکل ۱۳ (a1–a4) اشیاء را با اندازه کوچک نشان می دهد. شکل ۱۳ (b1-b4) اشیا با اندازه های مختلف را در RSI ها مرور می کند. شکل ۱۳ (c1-c4) نمونه هایی را در پس زمینه های پیچیده نشان می دهد. شکل ۱۳ (d1-d4) اثر تشخیص اجسام با چیدمان متراکم را نشان می دهد. همانطور که ظاهراً در شکل ۱۳ نشان داده شده است ، شبکه پیشنهادی ما به عملکرد تشخیص خوبی در نمونه های کوچک، اشیاء با اندازه های مختلف، نمونه هایی در پس زمینه های پیچیده و اشیاء در صحنه های متراکم دست یافته است.

نتایج تجسم مدل پیشنهادی ما بر روی مجموعه داده HRSC2016 در شکل ۱۴ نشان داده شده است. همانطور که از شکل مشاهده می شود، حتی برای اشیاء کشتی که در کنار هم و در زیر زمینه های پیچیده قرار گرفته اند، مدل ما می تواند تشخیص دقیق و در نهایت نتایج با کیفیت بالا را پیش بینی کند.

ما همچنین روش پیشنهادی خود را با YOLOv5 اصلی مقایسه کردیم. شکل ۱۵ نتایج تجسم مقایسه مجموعه داده ها را نشان می دهد. شکل ۱۵ (a1–a4) تصویر اصلی را نشان می دهد. شکل ۱۵ (b1-b4) نتایج تجربی YOLOv5 را نشان می دهد. شکل ۱۵ (c1-c4) نتایج تجربی روش مطرح شده توسط ما را نشان می دهد. همانطور که از شکل ۱۵ مشاهده می شودتا حدودی، مدل مطرح شده توسط ما نه تنها می تواند مشکل نمونه های کوچک را حل کند، بلکه مشکل تشخیص نادرست و اشتباه ناشی از سایه، اشیاء مشابه، پس زمینه های پیچیده و قرارگیری کنار هم را نیز حل می کند. در هنگام مواجهه با شرایط فوق، YOLOv5 اصلی گاهی اوقات تشخیص نادرست یا اشتباه ایجاد می کند.

۴٫۵٫ مطالعه فرسایش

برای شهادت بهتر عملکرد ماژول های پیشنهادی ما، ما هر ماژول را از طریق مطالعات فرسایشی آزمایش کردیم. آنها از همان هایپرپارامترها و تنظیمات پارامتر استفاده کردند. همه آزمایش‌ها روی یک مجموعه داده آزمایش شدند و مطالعات فرسایشی روی مجموعه داده DOTA در جدول ۸ نشان داده شده است. ما از Params، عملیات نقطه شناور (FLOPs)، Precision، Recall، mAP و F1-Score برای بررسی در دسترس بودن ماژول پیشنهادی خود استفاده کردیم.

در جدول ۸ ، ما از YOLOv5 به عنوان خط پایه استفاده کردیم و ۷۰٫۴% mAP را بدون افزودن FRM و DFF-PANet به دست آوردیم.

ماژول استفاده مجدد از ویژگی (FRM): برای نشان دادن اعتبار FRM، ما FRM را بر اساس خط پایه اضافه کردیم. با کمک FRM، شبکه به ۷۰٫۸ درصد mAP رسید که ۰٫۴ درصد بیشتر از خط پایه بود. علاوه بر این، نتایج تجربی بالاتر از نتایج بدون FRM بود. به این دلیل است که قبل از استفاده از FRM، نقشه‌های ویژگی سطح پایین فاقد اطلاعات معنایی غنی هستند که منجر به توانایی تشخیص ناکافی نمونه‌های کوچک می‌شود. در حین افزودن FRM، اطلاعات موقعیت در نقشه‌های ویژگی سطح پایین می‌تواند به طور کامل با اطلاعات معنایی در نقشه‌های سطح بالا ترکیب شود، در نتیجه توانایی استفاده مجدد از ویژگی ستون فقرات برای ترویج مشکل توانایی استخراج ویژگی ناکافی شبکه را افزایش می‌دهد.
شبکه تجمیع مسیر ترکیبی متراکم (DFF-PANet): برای تأیید اعتبار DFF-PANet، گردن خط پایه با DFF-PANet جایگزین شد. همانطور که ظاهراً در جدول نشان داده شده است، شبکه به ۷۱٫۳% mAP رسید که پس از افزودن DFF-PANet، ۰٫۹% بیشتر از خط پایه بود. این به دلیل قابلیت همجوشی ویژگی قوی بلوک های متراکم باقیمانده در DFF-PANet است. پس از به دست آوردن ویژگی های متراکم محلی، اطلاعات ویژگی انباشته شده را از طریق ترکیب ویژگی های جهانی برای بهبود عملکرد شبکه حفظ می کند.
روش پیشنهادی: وقتی FRM و DFF-PANet هر دو به مدل اضافه شدند، روشی که ما ارائه کردیم به دست آمد. ما به ۷۱٫۵ درصد mAP رسیدیم که ۱٫۱ درصد بیشتر از خط پایه بود. روش بهبود یافته ما همچنین به بالاترین امتیاز F1 رسید. نشان می دهد که FRM و DFF-PANet هر دو ماژول های موثری برای بهبود عملکرد شبکه هستند. آنها هر دو تا حدی توانایی تشخیص مدل را افزایش می دهند.

۵٫ بحث

در این بخش، روش تشخیص اشیاء سنجش از دور سبک وزن پیشنهاد شده در این پایان نامه را از سه جنبه مورد بحث قرار خواهیم داد: (۱) روش مدل. (۲) مدل سبک وزن؛ (۳) دقت مدل.

روش مدل: ما مدل پیشنهادی خود را با نسخه‌های مختلف مدل‌های YOLOv5 در مجموعه داده‌های DOTA، یعنی YOLOv5n (نانو)، YOLOv5s (کوچک) و YOLOv5m (متوسط) مقایسه کردیم. نتایج تجربی در جدول ۹ نشان داده شده است. همانطور که از جدول ۹ مشاهده می شود ، روش پیشنهادی ما دارای پیشرفت های خاصی در نسخه های مختلف مدل های YOLOv5 است که به ترتیب ۱٫۶٪، ۱٫۱٪ و ۰٫۹٪ افزایش یافته است.
مدل سبک وزن: در حال حاضر، طراحی ساختار شبکه ای که بتواند دقت تشخیص و پارامترهای مدل را به طور همزمان متعادل کند، جهت اصلی در الگوریتم های تشخیص اشیا است. اگرچه اکثر ساختارهای شبکه به دقت بالایی دست می یابند، اما معمولاً به مقدار زیادی محاسبات نیاز دارند و دستیابی به عملکرد تشخیص خوب با مقدار کمی محاسبه دشوار است. در این مطالعه، مدل YOLOv5s مورد استفاده ما به تعادلی بین دقت تشخیص و پارامترهای مدل دست می‌یابد. پارامترهای مدل فقط ۹٫۲ M و زمان استنتاج ۴٫۶ ms است که الزامات تشخیص بلادرنگ را برآورده می کند (بیش از ۳۰ فریم؛ یعنی زمان استنتاج کمتر از ۳۳٫۳ میلی ثانیه است). بنابراین، می‌توان آن را در دستگاه‌های فرانت‌اند، مانند پایانه‌های موبایل [ ۵۲ ] مستقر کرد. جدول ۹نشان می دهد که تعداد پارامترها در YOLOv5s نزدیک به ۱۳ M کمتر از YOLOv5m است، که تا حد زیادی پارامترهای مدل را کاهش می دهد. در مقایسه با YOLOv5n، اگرچه پارامترهای مدل ۶٫۱ M بیشتر از آن است، دقت تشخیص ۳٪ بهبود یافته است. بنابراین، در مقایسه با YOLOv5n، افزایش تعداد پارامترها قابل قبول است.
دقت مدل: تجزیه و تحلیل مقایسه‌ای مجموعه داده و آزمایش‌های فرسایشی که در بالا ذکر شد نشان می‌دهد که روش پیشنهادی ما عملکرد عالی برای نمونه‌هایی با اندازه‌های مختلف یا با بسیاری از عوامل تداخل خارجی دارد. با این حال، همانطور که از داده های جدول ۵ مشاهده می شود، دقت تشخیص اشیا مانند زمین پیست زمینی (GTF)، زمین بسکتبال (BC) و زمین توپ فوتبال (SBF) هنوز از رتبه اول عقب است. روش ما هنگام برخورد با چنین اشیایی به نتیجه رضایت بخشی نمی رسد. ممکن است به این دلیل باشد که چنین اشیایی گاهی در یک پس‌زمینه قرار دارند و اطلاعات بافت آنها مشابه است. اطلاعات ویژگی را نمی توان به وضوح توسط مدل شناسایی کرد، که منجر به عملکرد تشخیص پایین اشیا می شود. در کارهای آینده، امیدواریم که مدل را از این جنبه بهبود ببخشیم.

۶٫ نتیجه گیری

در این مقاله، مشکلات زیر را در RSI پیدا کردیم. اولاً، اندازه اهداف سنجش از دور معمولاً در مقایسه با تصاویر بسیار کوچک است. دوم، RSI ها اغلب توسط عوامل خارجی، مانند سایه ها، اشیاء مشابه و پس زمینه های پیچیده مختل می شوند. سوم، اشیاء در کنار هم در RSI منجر به نرخ بالایی از تشخیص اشتباه می شود. برای مقابله با مشکلات و در نظر گرفتن دقت و سرعت تشخیص، این مقاله یک روش تشخیص شی سبک وزن بر اساس RSIs را پیشنهاد می‌کند.

(۱): اول، ما از ماژول استفاده مجدد از ویژگی (FRM) برای استفاده مجدد از نقشه های ویژگی در ستون فقرات استفاده می کنیم. این ماژول می تواند توانایی تشخیص شبکه را برای اهداف کوچک و متوسط از طریق ترکیب اطلاعات معنایی و اطلاعات مکان افزایش دهد.
(۲): پس از آن، شبکه تجمیع مسیر ترکیبی متراکم (DFF-PANet) را طراحی کردیم تا بتوانیم مسئله عوامل تداخل خارجی را در RSIها بهتر مدیریت کنیم.

آزمایش‌ها روی مجموعه داده نشان می‌دهند که در مقایسه با سایر الگوریتم‌ها، روش ما ۷۱٫۵% mAP را به دست می‌آورد که بهبودی ۱٫۱% دارد و همچنین از بیشتر روش‌های تشخیص تک مرحله‌ای و دو مرحله‌ای فعلی فراتر می‌رود. روشی که ما مطرح کردیم عملکرد خوبی در تشخیص اشیاء سنجش از راه دور چند مقیاسی دارد. همانطور که از نتایج تجسم مشاهده می شود، مدل مطرح شده در این مقاله می تواند عملکرد خوبی داشته باشد.

با این حال، برخی از جعبه‌های لنگر ممکن است به دلیل استفاده از جعبه‌های لنگر افقی هنگام مواجهه با اجسام در حال چرخش فیلتر شوند، بنابراین تشخیص نادرست و نادرست برخی از اشیا افزایش می‌یابد. در آینده، جعبه های لنگر چرخشی را برای تقویت بیشتر عملکرد تشخیص مدل معرفی خواهیم کرد.

مشارکت های نویسنده

مفهوم سازی، لیمینگ ژو. روش، Xiaohan Rao; نرم افزار، Xiaohan Rao; اعتبارسنجی، Liming Zhou، Xiaohan Rao، Yahui Li و Yinghao Lin. تجزیه و تحلیل رسمی، Yinghao Lin; منابع، Xianyu Zuo; نوشتن – آماده سازی پیش نویس اصلی، لیمینگ ژو و شیائوهان رائو. نوشتن-بررسی و ویرایش، لیمینگ ژو و بائوجون کیائو. تجسم، بائوجون کیائو; نظارت، یاهوی لی; کسب بودجه، Yinghao لین. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این کار توسط کمک های مالی از برنامه تحقیقات پایه ملی چین (شماره گرنت ۲۰۱۹YFE0126600) حمایت شد. پروژه بزرگ علم و فناوری استان هنان (شماره گرنت ۲۰۱۴۰۰۲۱۰۳۰۰)؛ پروژه کلیدی علمی و فناوری استان هنان (شماره گرنت ۲۱۲۱۰۲۲۱۰۴۹۶)؛ پروژه های کلیدی تحقیقاتی و ترویجی استان هنان (شماره های کمک مالی ۲۱۲۱۰۲۲۱۰۳۹۳؛ ۲۰۲۱۰۲۱۱۰۱۲۱؛ ۲۲۲۱۰۲۳۲۰۱۶۳)؛ و طرح توسعه علم و فناوری کایفنگ (Grant number 2002001).

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

بیانیه در دسترس بودن داده ها

داده های مورد استفاده برای حمایت از یافته های این مطالعه در صورت درخواست از نویسنده مسئول در دسترس است.

قدردانی

ما صمیمانه از داوران ناشناس برای نظرات انتقادی و پیشنهادات برای بهبود نسخه تشکر می کنیم.

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

اختصارات

اختصارات استفاده شده در این پایان نامه به شرح زیر است:

یک ^۲ S-Det	انتخاب لنگر خود تطبیقی
AFANet	شبکه تجمیع ویژگی های تطبیقی
BCEWithLogitsLoss	آنتروپی متقاطع باینری با از دست دادن لجیت
CF2PN	شبکه هرمی فیوژن ویژگی متقابل
CIoU	تقاطع کامل بر روی اتحادیه
CNN ها	شبکه های عصبی کانولوشنال
CSPDarknet53	Cross Stage Partial Darknet 53
CSRDB	بلوک متراکم باقیمانده متقاطع
DFF-PANet	شبکه تجمیع مسیر ترکیبی متراکم
DOTA	مجموعه داده های تشخیص شی در تصاویر هوایی
DPM	مدل قطعات قابل تغییر شکل
فلاپ ها	عملیات نقطه شناور
FRM	ماژول استفاده مجدد از ویژگی
HOG	هیستوگرام گرادیان های جهت دار
ICN	آبشار تصویر و شبکه هرمی ویژگی
IoU	تقاطع روی اتحادیه
M2Det	آشکارساز چند سطحی و چند مقیاسی
MFPNet	شبکه هرمی چند ویژگی
ام اس کوکو	اشیاء مشترک مایکروسافت در زمینه
MSE-DenseNet	چند مقیاسی SELU DenseNet
NMS	سرکوب غیر حداکثری
پاسکال VOC	کلاس های شیء بصری پاسکال
منحنی روابط عمومی	منحنی دقیق-یادآوری
R-CNN	شبکه عصبی کانولوشنال منطقه ای
R-DFPN	شبکه هرمی با ویژگی چرخشی متراکم
RDB	بلوک متراکم باقیمانده
RoI	منطقه مورد نظر
RoI Trans.	ترانسفورماتور RoI
RRPN	شبکه های پیشنهادی منطقه چرخشی
RPN	شبکه های پیشنهادی منطقه
RSI ها	تصاویر سنجش از راه دور
SGD	نزول گرادیان تصادفی
SSD	آشکارساز مولتی باکس تک شات
SVM	ماشین بردار پشتیبانی
یولو	شما فقط یک بار نگاه می کنید

منابع

فو، جی. لیو، سی جی; ژو، آر. سان، تی. Zhang، طبقه‌بندی QJ برای تصاویر سنجش از دور با وضوح بالا با استفاده از یک شبکه کاملاً کانولوشن. Remote Sens. ۲۰۱۷ , ۹ , ۴۹۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ماگیوری، ای. تارابالکا، ی. چارپیات، جی. Alliez، P. شبکه های عصبی کانولوشن برای طبقه بندی تصاویر سنجش از دور در مقیاس بزرگ. IEEE Trans. Geosci. Remote Sens. ۲۰۱۷ , ۵۵ , ۶۴۵–۶۵۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ژو، جی. نیش، LY; غمیسی، ص. شبکه های عصبی کانولوشن تغییر شکل پذیر برای طبقه بندی تصاویر فراطیفی. IEEE Geosci. سنسور از راه دور Lett. ۲۰۱۸ ، ۱۵ ، ۱۲۵۴-۱۲۵۸٫ [ Google Scholar ] [ CrossRef ]
وو، XW; سهو، د. Hoi, SCH پیشرفت های اخیر در یادگیری عمیق برای تشخیص اشیا. محاسبات عصبی ۲۰۲۰ ، ۳۹۶ ، ۳۹-۶۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
چنگ، جی. ژو، رایانه شخصی؛ هان، JW یادگیری شبکه های عصبی کانولوشنال چرخش ثابت برای تشخیص اشیاء در تصاویر سنجش از دور نوری VHR. IEEE Trans. Geosci. Remote Sens. ۲۰۱۶ , ۵۴ , ۷۴۰۵–۷۴۱۵٫ [ Google Scholar ] [ CrossRef ]
Qu، Z. زو، اف. Qi، C. تشخیص هدف تصویر سنجش از دور: بهبود مدل YOLOv3 با شبکه های کمکی. Remote Sens. ۲۰۲۱ , ۱۳ , ۳۹۰۸٫ [ Google Scholar ] [ CrossRef ]
ژانگ، جی.ام. جین، XK; سان، ج. وانگ، جی. Sangaiah، AK ویژگی‌های کانولوشنال فضایی و معنایی برای ردیابی شیء بصری قوی. چندتایی. ابزارهای کاربردی ۲۰۲۰ ، ۷۹ ، ۱۵۰۹۵-۱۵۱۱۵٫ [ Google Scholar ] [ CrossRef ]
لی، ایکس. هو، WM; شن، CH; ژانگ، ZF; دیک، ا. Van den Hengel، A. بررسی مدل‌های ظاهری در ردیابی اشیاء بصری. ACM Trans. هوشمند سیستم تکنولوژی ۲۰۱۳ ، ۴ ، ۱-۴۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کائو، سی. وو، جی. زنگ، ایکس. فنگ، ز. Huang, Z. تحقیق در مورد هواپیما و کشتی تشخیص تصاویر سنجش از دور هوایی بر اساس شبکه عصبی کانولوشن. Sensors ۲۰۲۰ , ۲۰ , ۴۶۹۶٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
ردمون، جی. دیووالا، س. گیرشیک، آر. فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ IEEE: Piscataway Township، NJ، ایالات متحده، ۲۰۱۶٫ [ Google Scholar ]
ردمون، جی. فرهادی، A. YOLO9000: بهتر، سریعتر، قوی تر. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۷٫ [ Google Scholar ]
ردمون، جی. فرهادی، A. YOLOv3: یک پیشرفت افزایشی. arXiv ۲۰۱۸ , arXiv:1804.02767. [ Google Scholar ]
بوچکوفسکی، آ. وانگ، سی. لیائو، H. YOLOv4: سرعت و دقت بهینه تشخیص اشیا. arXiv ۲۰۲۰ ، arXiv:2004.10934. [ Google Scholar ]
اورینگهام، ام. اسلامی، س. گول، LV; ویلیامز، سی. وین، جی. زیسرمن، آ. چالش کلاس‌های شیء بصری پاسکال: گذشته‌نگر. بین المللی جی. کامپیوتر. Vis. ۲۰۱۵ ، ۱۱۱ ، ۹۸-۱۳۶٫ [ Google Scholar ] [ CrossRef ]
لین، TY; مایر، م. بلنگی، اس. هیز، جی. Zitnick، CL مایکروسافت COCO: اشیاء مشترک در زمینه ؛ Springer International Publishing: Cham, Switzerland, 2014. [ Google Scholar ]
یوان، ز. لیو، ز. زو، سی. چی، جی. Zhao، D. تشخیص شیء در تصاویر سنجش از راه دور از طریق شبکه هرمی چند ویژگی با بلوک میدان پذیرنده. Remote Sens. ۲۰۲۱ , ۱۳ , ۸۶۲٫ [ Google Scholar ] [ CrossRef ]
هوانگ، دبلیو. لی، جی. چن، کیو. جو، م. Qu, J. CF2PN: تشخیص هدف شبکه هرمی ترکیبی مبتنی بر سنجش از دور. Remote Sens. ۲۰۲۱ , ۱۳ , ۸۴۷٫ [ Google Scholar ] [ CrossRef ]
زو، اچ. ژانگ، پی. وانگ، ال. ژانگ، ایکس. Jiao, L. یک رویکرد تشخیص شی چند مقیاسی برای تصاویر سنجش از راه دور بر اساس MSE-DenseNet و تخصیص لنگر پویا. سنسور از راه دور Lett. ۲۰۱۹ ، ۱۰ ، ۹۵۹–۹۶۷٫ [ Google Scholar ] [ CrossRef ]
ژانگ، اچ. وو، جی. لیو، ی. Yu, J. VaryBlock: رویکردی جدید برای تشخیص اشیاء در تصاویر سنجش از دور. Sensors ۲۰۱۹ , ۱۹ , ۵۲۸۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ژانگ، تی. ژانگ، جی. گوا، سی. چن، اچ. ژو، دی. وانگ، ی. Xu, A. بررسی الگوریتم تشخیص شیء تصویر بر اساس یادگیری عمیق. مخابرات علمی ۲۰۲۰ ، ۳۶ ، ۹۲-۱۰۶٫ [ Google Scholar ]
وی، ال. کوی، دبلیو. هو، ز. سان، اچ. Hou, S. یک ویژگی چند سطحی تک شات که از شبکه عصبی مجدد برای تشخیص اشیا استفاده می شود. Vis. محاسبه کنید. ۲۰۲۱ ، ۳۷ ، ۱۳۳-۱۴۲٫ [ Google Scholar ] [ CrossRef ]
لیو، دبلیو. آنگلوف، دی. ایرهان، د. سگدی، سی. رید، اس. فو، سی. Berg، AC SSD: آشکارساز MultiBox تک شات . Springer: Cham، Switzerland، ۲۰۱۶٫ [ Google Scholar ]
لین، TY; دلار، P. گیرشیک، آر. او، ک. حریهاران، بی. Belongie, S. ویژگی شبکه های هرمی برای تشخیص اشیا. در مجموعه مقالات کنفرانس IEEE 2017 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لندن، بریتانیا، ۱ ژوئیه ۲۰۱۷٫ [ Google Scholar ]
لیو، اس. چی، ال. کین، اچ. شی، ج. جیا، J. شبکه تجمیع مسیر برای تقسیم‌بندی نمونه. در مجموعه مقالات کنفرانس IEEE/CVF 2018 در مورد دید رایانه و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
لین، TY; گویال، پ. گیرشیک، آر. او، K. P Dollár از دست دادن کانونی برای تشخیص شی متراکم. در مجموعه مقالات معاملات IEEE در تحلیل الگو و هوش ماشینی، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صفحات ۲۹۹۹-۳۰۰۷٫ [ Google Scholar ]
گیرشیک، آر. دوناهو، جی. دارل، تی. Malik, J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. در مجموعه مقالات انجمن کامپیوتر IEEE، کلمبوس، OH، ایالات متحده، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ [ Google Scholar ]
Girshick, R. Fast R-CNN. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در بینایی رایانه (ICCV)، سانتیاگو، شیلی، ۷ تا ۱۳ دسامبر ۲۰۱۵٫ [ Google Scholar ]
رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster R-CNN: Towards towards realtime object detection with region proposal networks. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۱۷ ، ۳۹ ، ۱۱۳۷-۱۱۴۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
قانون، اچ. Deng, J. CornerNet: تشخیص اشیاء به عنوان نقاط کلیدی جفت شده. بین المللی جی. کامپیوتر. Vis. ۲۰۲۰ ، ۱۲۸ ، ۶۴۲-۶۵۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
تیان، ز. شن، سی. چن، اچ. او، T. Fcos: تشخیص شی یک مرحله ای کاملاً کانولوشن. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، ۲۷ تا ۲۸ اکتبر ۲۰۱۹٫ [ Google Scholar ]
آیوف، اس. Szegedy, C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. در مجموعه مقالات سی و دومین کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، ۶ تا ۱۱ ژوئیه ۲۰۱۵؛ Francis, B., David, B., Eds. Microtome Publishing: Brookline, MA, USA; صص ۴۴۸-۴۵۶٫
گلوروت، ایکس. بوردس، آ. Bengio، Y. شبکه های عصبی یکسو کننده پراکنده عمیق. در مجموعه مقالات چهاردهمین کنفرانس بین المللی هوش مصنوعی و آمار، Ft. Lauderdale، FL، ایالات متحده آمریکا، ۱۱-۱۳ آوریل ۲۰۱۱; جفری، جی، دیوید، دی.، میروسلاو، د.، ویرایش. Microtome Publishing: Brookline, MA, USA; صص ۳۱۵-۳۲۳٫
ژانگ، ی. تیان، ی. کنگ، ی. ژونگ، بی. Fu، Y. شبکه متراکم باقیمانده برای وضوح تصویر فوق العاده. در مجموعه مقالات کنفرانس IEEE/CVF 2018 درباره بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
سان، ز. لنگ، X. لی، ی. شیونگ، بی. جی، ک. Kuang، G. BiFA-YOLO: یک روش جدید مبتنی بر YOLO برای تشخیص کشتی دلخواه در تصاویر SAR با وضوح بالا. Remote Sens. ۲۰۲۱ , ۱۳ , ۴۲۰۹٫ [ Google Scholar ] [ CrossRef ]
ژنگ، ز. وانگ، پی. لیو، دبلیو. لی، جی. بله، آر. Ren, D. Distance-IoU loss: یادگیری سریعتر و بهتر برای رگرسیون جعبه مرزی. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، نیویورک، نیویورک، ایالات متحده آمریکا، ۷ تا ۱۲ فوریه ۲۰۲۰٫ [ Google Scholar ]
دینگ، جی. زو، ن. Xia، GS; بای، ایکس. یانگ، دبلیو. یانگ، من؛ بلنگی، اس. لو، جی. داتکو، ام. Pelillo، M. تشخیص شیء در تصاویر هوایی: معیار و چالش‌های مقیاس بزرگ. arXiv ۲۰۲۱ ، arXiv:2102.12219. [ Google Scholar ]
لیو، ز. یوان، ال. ونگ، ال. Yang, Y. مجموعه داده های تصویری ماهواره ای نوری با وضوح بالا برای تشخیص کشتی و برخی خطوط پایه جدید. در مجموعه مقالات کنفرانس بین المللی کاربردها و روش های تشخیص الگو، پورتو، پرتغال، ۲۴ تا ۲۶ فوریه ۲۰۱۷٫ SciTePress: پکن، چین، ۲۰۱۷٫ [ Google Scholar ]
سان، دبلیو. ژانگ، ایکس. ژانگ، تی. زو، پی. گائو، ال. تانگ، ایکس. لیو، بی. شبکه تجمیع ویژگی تطبیقی برای تشخیص اشیا در تصاویر سنجش از دور. در مجموعه مقالات سمپوزیوم بین المللی زمین شناسی و سنجش از دور IGARSS 2020-2020 IEEE، Waikoloa، HI، ایالات متحده آمریکا، ۲۶ سپتامبر تا ۲ اکتبر ۲۰۲۰؛ IEEE: Piscataway Township، NJ، ایالات متحده آمریکا، ۲۰۲۰٫ [ Google Scholar ]
شیائو، ز. وانگ، ک. وان، س. تان، ایکس. خو، سی. Xia، F. A2S-Det: تطبیق لنگر کارایی در تشخیص اشیاء با تصویر هوایی Remote Sens. ۲۰۲۱ ، ۱۳ ، ۷۳٫ [ Google Scholar ] [ CrossRef ]
یانگ، ایکس. سان، اچ. فو، ک. یانگ، جی. سان، ایکس. یان، م. Guo, Z. تشخیص خودکار کشتی در تصاویر سنجش از راه دور از Google Earth از صحنه های پیچیده بر اساس چرخش چند مقیاسی شبکه های هرمی ویژگی متراکم. Remote Sens. ۲۰۱۸ , ۱۰ , ۱۳۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ما، جی. شائو، دبلیو. بله، اچ. وانگ، ال. وانگ، اچ. ژنگ، ی. Xue, X. تشخیص متن صحنه دلخواه از طریق پیشنهادات چرخشی. IEEE Trans. چندتایی. ۲۰۱۸ ، ۲۰ ، ۳۱۱۱–۳۱۲۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
عظیمی، س.م. ویگ، ای. بهمنیار، ر. کورنر، ام. Reinartz، P. به سمت تشخیص شی چند کلاسه در تصاویر سنجش از دور نامحدود. در کامپیوتر ویژن-ACCV 2018 ؛ Springer International Publishing: Cham، سوئیس، ۲۰۱۹٫ [ Google Scholar ]
دینگ، جی. زو، ن. لانگ، ی. Xia، GS; Lu, Q. ترانسفورماتور RoI یادگیری برای تشخیص اجسام جهت دار در تصاویر هوایی. arXiv ۲۰۱۸ , arXiv:1812.00155. [ Google Scholar ]
ژانگ، ی. شنگ، دبلیو. جیانگ، جی. جینگ، ن. Mao, Z. شاخه های اولویت برای تشخیص کشتی در تصاویر سنجش از دور نوری. Remote Sens. ۲۰۲۰ , ۱۲ , ۱۱۹۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ژانگ، ز. گوو، دبلیو. زو، اس. Yu, W. به سوی تشخیص کشتی دلخواه با پیشنهاد منطقه چرخشی و شبکه های تبعیض. IEEE Geosci. سنسور از راه دور Lett. ۲۰۱۸ ، ۱۵ ، ۱۷۴۵-۱۷۴۹٫ [ Google Scholar ] [ CrossRef ]
یانگ، ایکس. هو، ال. ژو، ی. وانگ، دبلیو. Yan, J. برچسب متراکم برای تشخیص چرخش آزاد ناپیوستگی مرز. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو، نشویل، TN، ایالات متحده، ۲۰-۲۵ ژوئن ۲۰۲۱٫ [ Google Scholar ]
لیائو، م. زو، ز. شی، بی. شیا، جی. Bai, X. رگرسیون حساس به چرخش برای تشخیص متن صحنه جهت دار. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
کیان، دبلیو. یانگ، ایکس. پنگ، اس. گوا، ی. Yan, J. یادگیری از دست دادن مدوله شده برای تشخیص شی چرخانده شده. arXiv ۲۰۱۹ ، arXiv:1911.08299. [ Google Scholar ]
مینگ، کیو. ژو، ز. میائو، ال. ژانگ، اچ. لی، ال. یادگیری لنگر پویا برای تشخیص شی دلخواه گرا. arXiv ۲۰۲۰ ، arXiv:2012.04150. [ Google Scholar ]
یانگ، ایکس. لیو، کیو. یان، جی. لی، ا. ژانگ، ز. Yu, G. R3det: آشکارساز تک مرحله ای تصفیه شده با ویژگی اصلاح شده برای جسم در حال چرخش. arXiv ۲۰۱۹ ، arXiv:1908.05612. [ Google Scholar ]
کینگ، ی. لیو، دبلیو. فنگ، ال. Gao, W. بهبود شبکه Yolo برای تشخیص هدف سنجش از راه دور با زاویه آزاد. Remote Sens. ۲۰۲۱ , ۱۳ , ۲۱۷۱٫ [ Google Scholar ] [ CrossRef ]
لو، آر. چن، ال. زینگ، جی. یوان، ز. Wang, J. یک روش تشخیص سریع هواپیما برای تصاویر SAR بر اساس شبکه توجه جمع‌شده مسیر دو جهته کارآمد. Remote Sens. ۲۰۲۱ , ۱۳ , ۲۹۴۰٫ [ Google Scholar ] [ CrossRef ]

شکل ۱٫ مشکلات تشخیص شی در RSI. ( الف ) اندازه کوچک اجسام سنجش از دور را نشان می دهد. ( ب ) نشان دهنده تداخل RSI توسط اشیاء مشابه و سایر عوامل خارجی است. ( ج ) نشان دهنده قرارگیری کنار هم از اجسام سنجش از دور است.

شکل ۲٫ ساختارهای شبکه هرمی با ویژگی های مختلف. ( الف ) پیش بینی با استفاده از نقشه های ویژگی با اندازه های مختلف. ( ب ) ترکیب اطلاعات از نقشه های ویژگی بالا و پایین. ( ج ) افزودن مسیرهای بالا به پایین و پایین به بالا. ( د ) هرم استفاده مجدد از ویژگی چند سطحی.

شکل ۳٫ ساختار کلی شبکه.

شکل ۴٫ ماژول استفاده مجدد از ویژگی.

شکل ۵٫ ماژول CSRDB.

شکل ۶٫ ساختار شبکه بلوک متراکم باقیمانده (RDB).

شکل ۷٫ نمودار تولید جعبه پیش بینی. قسمت قرمز نشان دهنده موقعیت جعبه لنگر است.

شکل ۸٫ نقشه های حرارتی توزیع مجموعه داده DOTA. ( الف ) مختصات افقی عرض جسم را نشان می دهد و مختصات عمودی ارتفاع جسم را نشان می دهد. ( ب ) مختصات افقی مختصات x شی را پس از عادی سازی نشان می دهد، مختصات عمودی مختصات y شی را پس از عادی سازی نشان می دهد.

شکل ۹٫ منحنی PR در مجموعه داده DOTA.

شکل ۱۰٫ منحنی AP-Epoch در مجموعه داده DOTA.

شکل ۱۱٫ منحنی PR در مجموعه داده HRSC2016.

شکل ۱۲٫ منحنی ضرر در مجموعه داده HRSC2016.

شکل ۱۳٫ تجسم منجر به چهار مورد از مجموعه داده DOTA می شود. ( a1 – a4 ) اشیاء را با اندازه کوچک نشان می دهد. ( b1 – b4 ) اشیاء با اندازه های مختلف را در RSI نشان می دهد. ( c1 – c4 ) اشیاء را در پس‌زمینه‌های پیچیده نشان می‌دهد. ( d1 – d4 ) اشیاء را به صورت متراکم نشان می دهد.

شکل ۱۴٫ نتایج تجسم در مجموعه داده HRSC2016.

شکل ۱۵٫ نمودار مقایسه روی مجموعه داده DOTA و مجموعه داده HRSC2016. ( a1 – a4 ) تصویر اصلی را نشان می دهد. ( b1 – b4 ) نشان دهنده نتایج تجربی YOLOv5 است. ( c1 – c4 ) نتایج تجربی ساختار شبکه ارائه شده توسط ما را نشان می دهد.

ونوس نصیرفام

14 ژانویه 2023

مقالات

یک روش تشخیص شی سبک وزن در تصاویر هوایی بر اساس شبکه تجمع مسیر همجوشی متراکم