یادگیری توصیفگر عمیق با از دست دادن طبقه بندی کمکی برای بازیابی تصاویر پارچه های ابریشم در زمینه حفظ میراث ابریشم اروپا

با افزایش تعداد مجموعه‌های دیجیتالی در دسترس متشکل از تصاویری که اشیاء مربوط به گذشته را در رابطه با حاشیه‌نویسی توصیفی به تصویر می‌کشند، نیاز به تکنیک‌های مناسب بازیابی اطلاعات برای حمایت از مورخان در کارشان اهمیت فزاینده‌ای پیدا می‌کند. در این زمینه، ما به مشکل بازیابی تصویر برای جستجوی رکوردها در پایگاه داده پارچه های ابریشمی می پردازیم. توصیفگرها که به عنوان نمایه ای برای پایگاه داده استفاده می شوند، توسط یک شبکه عصبی کانولوشنال یاد می گیرند و از حاشیه نویسی های موجود برای تولید خودکار داده های آموزشی استفاده می کنند. یادگیری توصیفگر با از دست دادن طبقه‌بندی کمکی با هدف پشتیبانی از خوشه‌بندی در فضای توصیفگر با توجه به ویژگی‌های اشیاء ابریشمی تصویر شده، مانند مکان یا مکان، ترکیب می‌شود.زمانمبدأ ما رویکرد خود را بر روی مجموعه داده‌ای از تصاویر پارچه در یک طبقه‌بندی kNN ارزیابی می‌کنیم که نتایج امیدوارکننده‌ای را با توجه به توانایی توصیف‌گرها برای نشان دادن ویژگی‌های معنایی پارچه‌های ابریشمی نشان می‌دهد. ادغام تلفات کمکی دقت کلی را ۲٫۷٪ و میانگین امتیاز F1 را ۵٫۶٪ بهبود می بخشد. می توان مشاهده کرد که بیشترین پیشرفت ها را می توان برای متغیرهایی با توزیع کلاس نامتعادل به دست آورد. ارزیابی در مجموعه داده WikiArt قابلیت انتقال رویکرد ما به سایر مجموعه‌های دیجیتال را نشان می‌دهد.
کلید واژه ها:

یادگیری عمیق ؛ بازیابی تصویر ; شباهت ریزدانه ; شباهت معنایی ; حاشیه سه گانه پیوسته ; از دست دادن طبقه بندی کمکی ; نمونه های آموزشی ناقص ; میراث فرهنگی ; پارچه های ابریشمی

۱٫ مقدمه

حفظ میراث فرهنگی ما برای نسل های آینده و در دسترس قرار دادن آن برای تاریخ نگاران و عموم مردم یک وظیفه مهم است. در این زمینه، یک استراتژی کلیدی، دیجیتالی کردن مجموعه‌های اشیاء تاریخی در قالب پایگاه‌های اطلاعاتی قابل جستجو با حاشیه‌نویسی استاندارد شده و احتمالاً تصاویر است که پیش نیازی برای دسترسی سریع و آسان به دانش مربوطه توسط متخصص و غیر متخصص است. کاربران متخصص این هدف پروژه اتحادیه اروپا H2020 SILKNOW بود ( http://silknow.eu/، بازدید در ۳۰ نوامبر ۲۰۲۱) تا یک گام در این راستا برای حفظ میراث فرهنگی اروپا مرتبط با ابریشم برداشته شود. ابریشم برای صدها سال نقش مهمی در بسیاری از زمینه های مختلف ایفا کرده است و هنوز هم این نقش را در حال حاضر دارد. به عنوان مثال، پیشرفت‌های فنی مانند ماشین بافندگی ژاکارد را ایجاد کرده است که مفهوم کارت‌های پانچ شده برای ذخیره اطلاعات را معرفی کرد. همچنین از طریق صنایع نساجی و خلاقانه و جنبه کارکردی به عنوان جزئی از لباس و مبلمان، تأثیر اقتصادی دارد و از منظر فرهنگی و نمادین از طریق شکل‌دهی فردیت و هویت مرتبط است. .]. برای دسترسی به دانش مربوط به ابریشم از گذشته برای نسل‌های آینده، یک نمودار دانش مربوط به پارچه‌های ابریشمی با جمع‌آوری مجموعه‌های آنلاین موجود و تبدیل متا اطلاعات به یک قالب استاندارد ساخته شد [ ۱ ]. مقاله حاضر با نیاز به دسترسی آسان به این نمودار دانش انگیزه دارد و یک روش مبتنی بر یادگیری عمیق جدید برای بازیابی تصویر ارائه می‌کند که می‌تواند برای جستجوی رکوردها در پایگاه داده بر اساس تصاویر استفاده شود.
برای بازیابی تصویر، یک بردار ویژگی ( توصیفگر ) برای هر تصویر موجود در پایگاه داده از پیش محاسبه شده است. به محض اینکه کاربر یک تصویر پرس و جو ارائه کرد، یک توصیفگر پرس و جو مربوطه مشتق می شود که به عنوان نمایه ای برای پایگاه داده عمل می کند: تصاویری که بیشترین شباهت را به تصویر پرس و جو دارند، با یافتن مشابه ترین توصیفگرهای تصاویر پایگاه داده، معمولاً با استفاده از آنها شناسایی می شوند. فاصله اقلیدسی به عنوان معیار تشابه برای سرعت بخشیدن به جستجوی نزدیکترین همسایگان، توصیفگرهای تصاویر از پایگاه داده در یک شاخص فضایی، معمولاً یک درخت kd [ ۲ ] ذخیره می شوند. چندین رویکرد برای بازیابی تصویر بر توصیفگرهای تصویر دست ساز متمرکز شده اند. به عنوان مثال، رمزگذاری ویژگی های بصری تصاویر [ ۳ ,۴ ] یا بهره برداری از متن مرتبط با تصاویر [ ۵ ]. رویکردهای جدیدتر از روش‌های مبتنی بر شبکه‌های عصبی کانولوشنال (CNN) [ ۶ ، ۷ ] برای یادگیری توصیف‌گرهایی استفاده می‌کنند که شباهت جفت‌های تصویر را منعکس می‌کنند. فرآیند آموزش چنین CNN معمولاً مستلزم نمونه‌های آموزشی متشکل از جفت تصویر با وضعیت شباهت شناخته شده است. به عنوان مثال، باید مشخص شود که آیا دو تصویر یک جفت تمرین مشابه هستند یا نامشابه [ ۸ ]]. در فرآیند آموزش، شبکه یاد می گیرد که توصیف کننده هایی با فواصل اقلیدسی کوچک برای جفت های تصویر مشابه و توصیفگرهایی با فواصل اقلیدسی بزرگ برای موارد غیرمشابه تولید کند.
در این زمینه، مشکل عمده تولید نمونه های آموزشی است. اغلب، آنها با برچسب گذاری دستی [ ۹ ، ۱۰ ] تولید می شوند، اما این یک کار خسته کننده و وقت گیر است. در زمینه بازیابی تصویر برای جستجو در پایگاه داده‌های آثار هنری، این عیب را نیز دارد که به‌ویژه اگر مبتنی بر جنبه‌های بصری صرف باشد، بسیار ذهنی است. برای حل این مشکل، تولید نمونه های آموزشی به صورت خودکار با تعریف شباهت بر اساس اطلاعات اضافی که به تصاویر اختصاص داده می شود، مطلوب است. به عنوان مثال، برچسب‌های کلاس که نوع شی تصویر شده را توصیف می‌کنند [ ۱۱ ، ۱۲ ، ۱۳ ، ۱۴ ] یا متون توصیفی [ ۱۵ ، ۱۶ ]]. این استراتژی برای تولید داده های آموزشی برای بازیابی تصویر در زمینه مجموعه های دیجیتالی آثار هنری نیز اعمال شد [ ۱۷ ، ۱۸ ، ۱۹ ]. این اجازه می دهد تا نمونه هایی متشکل از جفت تصاویر با وضعیت شباهت شناخته شده از مجموعه داده های موجود حاوی تصاویر با حاشیه نویسی تولید شود. در اکثر رویکردهای ذکر شده، شباهت تصاویر به عنوان یک مفهوم باینری در نظر گرفته می شود: یک جفت تصویر یا مشابه است یا نه [ ۱۱ ، ۱۷ ].
با این حال، در زمینه بازیابی تصویر در پایگاه‌های داده آثار هنری، مفهوم تدریجی شباهت [ ۱۳ ، ۱۴ ] ممکن است شهودی‌تر از مفهوم دوتایی باشد. یک گزینه برای تعریف چنین مفهوم غیر دودویی از شباهت را می توان با اندازه گیری سطح شباهت یک جفت تصویر با سطح توافق حاشیه نویسی های معنایی برای متغیرهای متعدد به دست آورد – مفهومی که ما به عنوان شباهت معنایی در [ ۲۰ ] نام بردیم. ۲۱ ]. در این کارها مشکل کمبود اطلاعات را نیز در نظر گرفتیم: اگر به طور خودکار از مجموعه‌های آنلاین موزه‌ها جمع‌آوری شود، بسیاری از سوابق موجود در پایگاه داده حاوی اطلاعاتی درباره اشیاء میراث فرهنگی حاوی حاشیه‌نویسی برای همه متغیرهایی که برای تعریف شباهت مرتبط هستند، نخواهد بود.
در این مقاله، ما یک روش مبتنی بر CNN برای بازیابی تصویر ارائه می‌کنیم که می‌تواند برای هر پایگاه داده حاوی تصاویر با حاشیه‌نویسی معنایی اعمال شود. بر اساس کار قبلی ما [ ۲۱]، نمونه های آموزشی به طور خودکار از پایگاه داده تعیین می شوند، که منجر به مفهوم تدریجی تشابه معنایی می شود، که همچنین می تواند با نمونه های بصری ترکیب شود. انتظار می رود این منجر به نتایج بازیابی شود که به ویژه برای افرادی که می خواهند با تجزیه و تحلیل حاشیه نویسی تصاویر بازیابی شده چیزی در مورد ویژگی های تصاویر پرس و جو بیاموزند، معنی دار است، و همچنین امکان ارزیابی کمی را بر اساس k-نزدیک ترین همسایه (kNN) فراهم می کند. ) طبقه بندی. روش ما همچنین اجازه می دهد تا نمونه هایی با حاشیه نویسی ناقص در آموزش در نظر گرفته شوند. در مقایسه با کار قبلی خود، ما مقدار فقدان آموزشی را برای شباهت یادگیری کمی تغییر می دهیم و مهمتر از آن، یک ضرر طبقه بندی کمکی اضافی اضافه می کنیم.برای هر نمونه آموزشی، که انتظار داریم از خوشه‌بندی در فضای توصیفگر با وادار کردن توصیفگرها به داشتن اتصال درون کلاسی بهتر پشتیبانی کند.
مشارکت های علمی این مقاله را می توان به صورت زیر فرموله کرد:
  • تا آنجا که ما می دانیم، کار ما اولین کاری است که از برچسب های کلاسی از متغیرهای معنایی چندگانه برای تعریف شباهت برای بازیابی تصویر در ترکیب با از دست دادن طبقه بندی کمکی در یک استراتژی آموزشی انتها به انتها استفاده می کند. کارهای موجود با استفاده از یک ضرر طبقه بندی کمکی که ما از آن آگاه هستیم [ ۲۲ ، ۲۳ ، ۲۴ ] از چندین متغیر بهره برداری نمی کنند و بنابراین از مفهوم تدریجی شباهت استفاده نمی کنند.
  • ما از یک مفهوم تدریجی و نه دوتایی از تشابه تصاویر مبتنی بر متغیرهای معنایی متعدد استفاده می‌کنیم و در عین حال مشکل حاشیه‌نویسی‌های گمشده را در نظر می‌گیریم، که هنگام برخورد با مجموعه‌هایی از رکوردهای جمع‌آوری‌شده از اینترنت مهم است. آثار دیگر به طور ضمنی تعداد متفاوتی از برچسب‌ها را در هر تصویر اجازه می‌دهند، زیرا صحنه حاوی چندین شی است، به عنوان مثال، [ ۱۲ ، ۱۳ ، ۱۴ ]، که در برنامه ما صادق نیست.
  • ما تعریف تدریجی وضعیت شباهت جفت‌های تصویر را به از دست دادن سه‌گانه [ ۲۵ ] انتقال می‌دهیم تا نمایش‌های تصویری ریزدانه را یاد بگیریم، به طوری که فواصل اقلیدسی توصیف‌گرهای آموخته‌شده مجبور شوند درجات مختلف شباهت را بدون نیاز به دقت منعکس کنند. یک حاشیه در ضرر انتخاب کنید. حاشیه با درجه شباهت و عدم قطعیت وضعیت شباهت سازگار است.
  • فرمول ما از ضرر به ما امکان می دهد مفاهیم مختلف شباهت را برای آموزش ترکیب کنیم تا توصیف کننده هایی را به دست آوریم که هم از نظر بصری و هم از نظر معنایی مشابه هستند.
  • ما مجموعه گسترده‌ای از آزمایش‌ها را بر اساس مجموعه داده‌ای از پارچه‌های ابریشمی، با استفاده از طبقه‌بندی kNN برای ارزیابی کمی ارائه می‌کنیم، که همچنین تأثیر از دست دادن طبقه‌بندی بر نتایج را برجسته می‌کند. برای نشان دادن قابلیت انتقال این رویکرد، آزمایش‌هایی را نیز برای بازیابی تصویر بر اساس مجموعه داده WikiArt ارائه می‌کنیم ( http://www.wikiart.org ، بازدید در ۳۰ نوامبر ۲۰۲۱).
ادامه این مقاله با یک مرور کلی در مورد کار مرتبط شروع می شود ( بخش ۲ ). روش جدید ما برای بازیابی تصویر در بخش ۳ ارائه شده است . بخش ۴ مجموعه داده های مورد استفاده برای ارزیابی این روش را توصیف می کند، در حالی که بخش ۵ مجموعه ای جامع از آزمایش ها را بر اساس این مجموعه داده ها ارائه می دهد. در نهایت، بخش ۶ یافته‌های اصلی ما را خلاصه می‌کند و پیشنهادهایی برای کارهای آینده ارائه می‌کند.

۲٫ کارهای مرتبط

کارهای اولیه بر روی بازیابی تصویر به ویژگی های دست ساز متکی بود. در بازیابی تصویر مبتنی بر محتوا (CBIR)، توصیفگرها به طور انحصاری محتوای بصری یک تصویر را به شکل ویژگی‌های هیستوگرام رنگی، ویژگی‌های شکل و ویژگی‌های بافت منعکس می‌کنند [ ۳ ، ۴ ]. به این ترتیب، این ویژگی‌ها بر ظاهر بصری تصاویر تمرکز می‌کنند و نتایج بازیابی اغلب در سطح مفهومی، که به عنوان شکاف معنایی نامیده می‌شود، نماینده نیستند . به منظور ارائه نتایج بازیابی معنادار معنایی و در نتیجه برای غلبه بر این شکاف معنایی، ویژگی‌های معنایی اضافی حاصل از حاشیه‌نویسی‌های متنی تصاویر در زمینه بازیابی تصویر مبتنی بر معنایی (SBIR) بررسی شده‌اند. به عنوان مثال، ر. [۲۷ ] ویژگی‌های متنی را از زیرنویس‌های تصویر در میان سایر مواردی که می‌توان در بازیابی تصویر ادغام کرد، استخراج کرد [ ۵ ]. با این حال، هیچ یک از این آثار اولیه توصیفگرها را از داده های آموزشی یاد نمی گیرند، که به عنوان نقطه قوت روش های مبتنی بر یادگیری عمیق در نظر گرفته می شود.
قبلاً در [ ۲۸ ] نشان داده شده بود که نمایش‌های مشتق‌شده توسط یک CNN که از قبل برای کار کاملاً متفاوتی آموزش دیده است، به عنوان مثال، طبقه‌بندی، می‌تواند برای دستیابی به نتایج بازیابی تصویر معنی‌دارتری نسبت به روش‌های کلاسیک که به طور خاص برای بازیابی تصویر طراحی شده‌اند، استفاده شود. بسیاری از رویکردهای یادگیری عمیق که برای بازیابی تصویر طراحی شده اند، از CNN های سیامی متشکل از دو شاخه با وزن های مشترک استفاده می کنند [ ۲۹ ]. هنگام آموزش یک شبکه سیامی، از دست دادن کنتراست [ ۸] اغلب اعمال می شود. این شبکه را مجبور می‌کند تا توصیفگرهای مشابهی را برای جفت‌های تصویری که مشابه در نظر گرفته می‌شوند و برای جفت‌های تصویری که در نظر گرفته می‌شوند غیرمشابه هستند، توصیف‌کننده‌های غیرمشابه تولید کند. از آنجایی که فاصله اقلیدسی برای اندازه گیری شباهت توصیفگرها در این از دست دادن استفاده می شود، می توان از آن برای بازیابی تصویر نیز استفاده کرد، به عنوان مثال، [ ۱۰ ]. در حالی که تمرین با از دست دادن کنتراست مستلزم جفت تصاویر مشابه یا غیرمشابه است، از دست دادن سه گانه [ ۹ ]] به سه‌گانه‌های تصویری نیاز دارد که هر کدام از یک تصویر لنگر، یک نمونه مثبت – یعنی تصویری شبیه به لنگر تعریف شده است – و یک نمونه منفی که با لنگر متفاوت است، تشکیل می‌شود. این تلفات توصیفگر نمونه مثبت را وادار می کند تا حداقل با یک حاشیه از پیش تعریف شده به توصیفگر لنگر از نظر فاصله اقلیدسی بیشتر شبیه باشد تا توصیفگر نمونه منفی. هر دو روش آموزشی به نمونه های آموزشی با وضعیت شباهت باینری شناخته شده نیاز دارند که اغلب با برچسب گذاری دستی تولید می شوند. به عنوان مثال، [ ۹ ، ۱۰ ].

۲٫۱٫ بهره برداری از حاشیه نویسی های معنایی

یک جایگزین برای برچسب‌گذاری دستی، بهره‌برداری از حاشیه‌نویسی معنایی اختصاص داده شده به تصاویر برای تعریف شباهت است. یک راه ساده برای انجام این کار در عین حفظ مفهوم شباهت باینری، در نظر گرفتن برچسب‌های کلاس تنها یک متغیر معنایی است: اگر دو تصویر دارای برچسب کلاس یکسانی باشند، مشابه در نظر گرفته می‌شوند. در غیر این صورت، آنها متفاوت هستند. مثالی برای چنین رویکردی [ ۱۱]، که در آن جفت های حاصل با یک وضعیت شباهت باینری شناخته شده در یک روش آموزشی شامل از دست دادن سه گانه استفاده می شود. اگرچه این استراتژی مشکل برچسب‌گذاری دستی را در صورت موجود بودن پایگاه داده با تصاویر حاشیه‌نویسی حل می‌کند، وضعیت شباهت یک جفت تصویر همچنان به صورت دودویی تعریف می‌شود، که این واقعیت را در نظر نمی‌گیرد که برخی از تصاویر ممکن است شبیه‌تر در نظر گرفته شوند. یکدیگر نسبت به دیگران و اجازه نمی دهد روشی برای بازیابی تصاویری که با توجه به متغیرهای معنایی متعدد شبیه به تصویر پرس و جو هستند آموزش داده شود.
اگر چندین حاشیه نویسی برای هر تصویر در نظر گرفته شود، درجات مختلفی از شباهت دو تصویر را می توان تعریف کرد [ ۱۲ ، ۱۳ ، ۱۴ ]. در [ ۱۲ ]، سطوح مختلف تشابه معنایی بر اساس تعداد برچسب های یکسان اختصاص داده شده به دو تصویر تعریف شده است. تمرین بر اساس از دست دادن سه قلو است، با استفاده از درجات مختلف شباهت به وزن اهمیت یک سه قلو در تمرین در حالی که یک فراپارامتر حاشیه ثابت حفظ می شود. بنابراین، حداقل فاصله ای که بین فواصل توصیفگرهای مثبت و نمونه های منفی از توصیفگر لنگر اعمال می شود، مستقل از درجه تشابه آنها، برای همه سه قلوها یکسان است.
در [ ۱۳ ]، آموزش به فاصله های توصیفگر نیاز دارد تا درجات مختلفی از شباهت را منعکس کند. با استفاده از از دست دادن کنتراست، توصیفگرهای تصاویری که حاشیه نویسی آنها کاملاً مطابقت دارد، مجبور می شوند فاصله کمتری از حاشیه مثبت از پیش تعریف شده داشته باشند، در حالی که حاشیه تعیین کننده حداقل فاصله توصیفگر بین تصاویر با حاشیه نویسی تا حدی یا کاملاً متفاوت، با درجه شباهت وزن می شود. ; حاشیه یک فراپارامتر است که باید انتخاب شود. یک تعریف تدریجی از شباهت معنایی بر اساس فاصله کسینوس بین دو بردار برچسب در [ ۱۴ ] ارائه شده است.]. نویسندگان یک افت را بر اساس جفت تصاویر فرموله می کنند که شباهت توصیفگر تصویر را مجبور می کند تا با شباهت معنایی تدریجی در طول آموزش بدون نیاز به تنظیم یک فراپارامتر حاشیه مطابقت کند.
همه مقالات ذکر شده با استفاده از حاشیه نویسی های متعدد [ ۱۲ ، ۱۳ ، ۱۴] با هدف یادگیری کدهای هش باینری به عنوان توصیفگر تصویر به جای بردارهای ویژگی با ارزش واقعی است. برچسب‌های استفاده شده در این مقالات جنبه‌های مختلف صحنه به تصویر کشیده شده را توصیف می‌کنند، به عنوان مثال، انواع شیء مختلف، در حالی که در کار ما، آنها به ویژگی‌های معنایی انتزاعی‌تر شی تصویر شده مربوط می‌شوند، به عنوان مثال، مکان و زمان پیدایش شی تصویر شده. . علاوه بر این، حتی با وجود اینکه آنها تعداد متفاوتی از برچسب‌ها را به یک تصویر اختصاص می‌دهند، اما مقالات ذکر شده، حاشیه‌نویسی‌های گمشده را در تعاریف شباهت خود در نظر نمی‌گیرند. ما به صراحت با حاشیه نویسی های گمشده در یادگیری مبتنی بر سه گانه سروکار داریم و از آنها برای تعریف درجه ای از عدم قطعیت وضعیت شباهت که بر حاشیه ضرر سه گانه تأثیر دارد، استفاده می کنیم.

۲٫۲٫ تلفات کمکی

قابلیت استفاده از بردارهای ویژگی یاد گرفته شده در زمینه طبقه بندی تصویر برای خدمت به عنوان توصیف کننده برای بازیابی تصویر قبلاً بررسی شده است [ ۲۸ ، ۳۰ ، ۳۱ ، ۳۲ ]. حتی استفاده از فعال‌سازی‌های لایه softmax برای بازیابی تصویر ممکن است [ ۳۳ ]. در [ ۳۴ ]، طبقه بندی برای محدود کردن فضای جستجو برای بازیابی تصویر به تصاویر متعلق به همان دسته تصویر جستجو استفاده می شود. برای بهبود بیشتر خوشه بندی توصیفگرهای تصویر با توجه به شباهت تصاویر ارائه شده، یادگیری توصیفگر را می توان با ترکیب تلفات زوجی یا سه گانه با یک افت طبقه بندی کمکی اضافی تحقق بخشید..
در [ ۲۲ ]، یادگیری توصیفگر بر اساس از دست دادن متضاد با از دست دادن طبقه بندی ترکیب شده است. تنها یک متغیر منفرد هم برای تعریف شباهت تصاویر به صورت باینری و هم برای طبقه بندی در نظر گرفته می شود. رویکردهای مشابه با تکیه بر یک متغیر واحد در [ ۲۳ ، ۲۴ ] نشان داده شده است، اما در این مقالات، از دست دادن سه گانه در ترکیب با یک ضرر طبقه بندی استفاده می شود. این مورد در [ ۳۵ ] نیز وجود دارد، که در آن دو تابع تلفات کمکی اضافی پیشنهاد شده است: یک افت کروی ، که برای پشتیبانی از یادگیری تفکیک پذیری بین طبقاتی طراحی شده است، و یک تلفات مرکزی .، انتظار می رود از اتصال درون کلاسی پشتیبانی کند. همه این آثار از برچسب‌های کلاس یک متغیر فقط برای تعریف شباهت استفاده می‌کنند که منجر به وضعیت شباهت باینری تصاویر می‌شود و بنابراین اجازه نمی‌دهد درجات مختلف شباهت را یاد بگیریم. در [ ۳۶ ]، یادگیری توصیفگر نیز با از دست دادن طبقه بندی ترکیب می شود، که در آن از چندین متغیر معنایی برای انجام یادگیری چند وظیفه ای استفاده می شود. هدف از یادگیری توصیفگر این است که توصیفگرهای تصویر سطح بالایی را که توسط آخرین لایه استخراج کننده ویژگی تولید می شود مجبور کنیم تا با ویژگی های مجموعه داده ای که یک تصویر به آن تعلق دارد تغییر نکند. در [ ۳۶]، دو توصیفگر متفاوت در نظر گرفته شده است. برای این منظور، توصیفگرهای تولید شده توسط دو معماری شبکه چند وظیفه‌ای، یکی در هر مجموعه داده، با از دست دادن سه‌گانه ارائه می‌شوند و توصیف‌گرهای متعلق به مجموعه‌های داده مختلف را مجبور می‌کند تا شبیه‌تر از یک جفت توصیفگر متعلق به تصاویری از همان مجموعه داده باشند. اگرچه [ ۳۶ ] از برچسب‌های کلاس چندین متغیر برای یادگیری توصیفگرها با استفاده از یادگیری چند وظیفه‌ای استفاده می‌کند، مفهوم شباهت هنوز به صورت دودویی تعریف می‌شود.
ما می‌توانیم دقیقاً یک اثر را شناسایی کنیم که امکان تعریف دقیق شباهت را فراهم می‌کند و علاوه بر این از یک فقدان طبقه‌بندی برای حمایت از یادگیری توصیفگر استفاده می‌کند. در [ ۳۷ ]، یک تعریف دقیق از شباهت با بهره‌برداری از ارتباط معنایی برچسب‌های کلاس با توجه به فاصله نسبی آنها در هستی‌شناسی WordNet [ ۳۸ ]] پیشنهاد می شود. آموزش توصیفگر، که می‌تواند به صورت اختیاری با آموزش یک طبقه‌بندی‌کننده ترکیب شود، با یادگیری نقشه‌برداری از تصاویر به جاسازی‌هایی که برای مطابقت با تعبیه‌های کلاس از پیش محاسبه‌شده اعمال می‌شوند، تحقق می‌یابد، جایی که تعبیه‌های کلاس می‌توانند به طور تکراری از یک معیار تشابه برای تصاویر مشتق شوند. با در نظر گرفتن جنبه های معنایی تا جایی که ما می دانیم، هیچ اثری وجود ندارد که درجات مختلفی از شباهت توصیفگر را در ترکیب با از دست دادن طبقه بندی به صورت سرتاسری یاد بگیرد. به طور خاص، ما نتوانستیم هیچ کاری را پیدا کنیم که از کلاس‌های چندین متغیر معنایی برای تعریف یک مفهوم دقیق از شباهت معنایی و یادگیری پیش‌بینی متغیرها به منظور پشتیبانی از یادگیری توصیف‌گر استفاده کند.

۲٫۳٫ بازیابی تصویر برای میراث فرهنگی

همه آثار ذکر شده تاکنون به یادگیری توصیفگر برای بازیابی تصویر می پردازند، اما در زمینه کاربردهایی که شامل حفظ میراث فرهنگی نمی شوند. بسیاری از آثاری که روش‌های یادگیری ماشین را در زمینه حفظ میراث بررسی می‌کنند، بر طبقه‌بندی مبتنی بر تصویر آثار هنری به تصویر کشیده شده با توجه به یک [ ۳۹ ، ۴۰ ، ۴۱ ] یا چند متغیر [ ۴۲ ، ۴۳ ، ۴۴ ] تمرکز می‌کنند. با این وجود، بازیابی تصویر در حال تبدیل شدن به یک کار مهم فزاینده در آن زمینه نیز هست [ ۴۵ ].
اولین رویکردها از نمایش های مبتنی بر گراف از تصاویر به منظور جستجوی اشیاء مشابه در پایگاه داده بهره برداری می کنند [ ۴۶ ]. رویکردهای جدیدتر برای بازیابی تصویر در زمینه میراث فرهنگی بر ویژگی‌های تصویر سطح بالا که توسط CNN آموخته شده است، تکیه دارند. به عنوان مثال، [ ۱۷ ، ۴۷ ]. در [ ۴۷ ]، یک رویکرد بدون نظارت برای بازیابی تصویر بر اساس استخراج ویژگی های تصویر با یک CNN از پیش آموزش دیده پیشنهاد شده است. پس از تبدیل این ویژگی‌ها به توصیفگرهای فشرده‌تر با استفاده از تجزیه و تحلیل مؤلفه‌های اصلی، بازیابی تصویر با جستجوی نزدیک‌ترین همسایگان در فضای توصیفگر بر اساس فواصل اقلیدسی انجام می‌شود. در مقابل، نویسندگان [ ۱۷] پیشنهاد آموزش CNN برای ایجاد ویژگی های تصویر مناسب برای بازیابی با به حداقل رساندن اتلاف سه گانه. برای این منظور، آنها داده های آموزشی را تولید می کنند که از برچسب های کلاس پنج متغیر معنایی برای تعریف شباهت تصاویر به صورت باینری استفاده می کنند. فرض بر این است که دو تصویر در مواردی که بیش از دو برچسب کلاس یکسان دارند، مشابه باشند.
هدف بازیابی چند وجهی به جای بازیابی تصاویری که بیشتر شبیه به یک تصویر پرس و جو هستند، یافتن تصاویری است که بیشترین ارتباط را با متن پرس و جو ارائه شده یا یافتن بهترین متن های توصیفی برای یک تصویر پرس و جو دارند. بازیابی تصویر متقاطع نقش مهمی در زمینه پرس و جو از مجموعه های هنری ایفا می کند، به عنوان مثال، [ ۱۸ ، ۱۹ ]، جایی که تطبیق تصاویر و متون در مجموعه های مرتبط با میراث فرهنگی یک کار چالش برانگیز است [ ۴۸ ]. در [ ۱۸ ]، توصیفگرها با به حداقل رساندن یک نوع از دست دادن سه گانه، که در آن توصیفگرهای تصویر و توصیفگرهای متن مجبور هستند با توجه به محصول نقطه‌ای خود مشابه باشند، آموخته می‌شوند. رویکرد در [ ۱۹] همچنین به بازیابی متقابل وجهی با استفاده از راهبردهایی شبیه به راهبردهای مورد استفاده در کار ما می پردازد. نویسندگان توصیفگرهای تصویر را برای بازیابی بر اساس CNN (ContextNet) از پیش آموزش دیده برای طبقه بندی چند وظیفه ای چهار متغیر معنایی به دست می آورند. به منظور یادگیری نمایش‌های تصویر معنادار از نظر معنایی، آموزش ContextNet طبقه‌بندی را با نگاشت توصیف‌گرهای تصویر به نمایش‌های node2vec [ ۴۹ ] ترکیب می‌کند که زمینه شی تصویر شده را با توجه به یک نمودار دانش حاوی آثار هنری توصیف می‌کند. با این وجود، نویسندگان بازیابی تصویر به تصویر را بررسی نمی‌کنند، اما پتانسیل توصیف‌گرهای تصویری را که با استفاده از روش خود برای بازیابی تصویر متقاطع آموخته‌اند ارزیابی می‌کنند.
اگرچه آثاری وجود دارد که به بازیابی تصویر در زمینه کاربردهای میراث فرهنگی می پردازند، هیچ یک از آنها به جز کار قبلی ما [ ۲۱ ] از متغیرهای معنایی متعدد برای تعریف درجات مختلف شباهت برای آموزش بهره برداری نمی کنند. علاوه بر این، هیچ اثری یافت نشد که یادگیری توصیفگر را با از دست دادن طبقه‌بندی کمکی برای پشتیبانی از خوشه‌بندی در فضای ویژگی ترکیب کند. رویکرد در [ ۱۹] بیشتر شبیه ما است، اما از یک سو، طبقه‌بندی تصویر و یادگیری توصیفگر در دو مرحله در آن مقاله تحقق می‌یابد، و از سوی دیگر، این رویکرد به جای بازیابی تصویر به تصویر، به بازیابی چندوجهی می‌پردازد. در نهایت، هیچ اثری در زمینه بازیابی تصویر در حوزه میراث فرهنگی که بر تصاویر پارچه های ابریشمی متمرکز باشد، پیدا نکردیم. همه آثار ذکر شده تا کنون از مجموعه داده‌های تصاویری استفاده می‌کنند که نقاشی‌ها را نشان می‌دهند.

۲٫۴٫ بحث

اگرچه تعداد کمی از آثار به بازیابی تصویر برای تصاویری که پارچه‌ها را نشان می‌دهند، وجود دارد، اکثر آنها به جای پارچه‌های ساده، به بازیابی پارچه‌های پردازش‌شده مانند لباس‌ها می‌پردازند [ ۳۶ ، ۵۰ ، ۵۱ ، ۵۲ ]. چند کار نیز بازیابی تصویر را برای پارچه‌های ساده بررسی می‌کنند، اما آنها وضعیت شباهت جفت‌های آموزشی را منحصراً بر اساس برچسب‌های کلاس یک متغیر واحد تعریف می‌کنند [ ۵۳ ]، یا شبکه را فقط برای طبقه‌بندی پارچه آموزش می‌دهند و از سطح بالا استفاده می‌کنند. ویژگی های سطح برای بازیابی تصویر [ ۵۴ ]. تا آنجا که ما می دانیم، اثر ما تنها اثری است که به بازیابی تصویر پارچه در زمینه میراث فرهنگی می پردازد، به جز کارهای قبلی ما [۲۱ ].
در حالی که روش‌های موجود با تمرکز بر یادگیری درجات مختلف شباهت [ ۱۳ ، ۱۴ ] و همچنین روش‌های مربوط به بازیابی تصویر در زمینه میراث فرهنگی [ ۱۷ ، ۱۹ ] وجود دارد، به نظر نمی‌رسد که هیچ کاری در مورد بررسی دقیق وجود نداشته باشد. مفهوم شباهت بر اساس متغیرهای متعدد تحت بررسی حاشیه نویسی های گمشده به جز کار قبلی ما [ ۲۱ ]. علاوه بر این، تا جایی که ما می دانیم، هیچ اثری وجود ندارد که چنین مفهوم شباهتی را با از دست دادن طبقه بندی کمکی برای پیش بینی متغیرهای مورد استفاده برای تعریف شباهت ترکیب کند. در [ ۲۲ ، ۲۳ ، ۲۴ ، ۳۶]، یادگیری توصیفگر با یک ضرر کمکی ترکیب می شود، اما این رویکردها همه بر اساس یک متغیر واحد برای طبقه بندی کمکی یا برای مفهوم شباهت یا برای هر دو هستند.
مشابه ترین آثار با رویکرد ارائه شده در این مقاله [ ۱۹ ] و کار قبلی خود ما [ ۲۱ ] است. حتی اگر [ ۱۹ ] یاد می گیرد چندین متغیر را پیش بینی کند که ویژگی های میراث فرهنگی را توصیف می کند، آموزش طبقه بندی کننده را می توان به عنوان یک مرحله پیش پردازش از دیدگاه توصیفگرهای آموزش دیده بعدی برای بازیابی متقابل مشاهده کرد. در این مقاله، گونه‌ای از شباهت بصری و معنایی تعریف شده در [ ۲۱ ] را اتخاذ می‌کنیم که درجات مختلفی از شباهت را امکان‌پذیر می‌کند در حالی که به صراحت حاشیه‌نویسی‌های معنایی گمشده را در نظر می‌گیرد. در مقابل [ ۲۱]، به منظور بهبود رفتار خوشه‌بندی در فضای توصیفگر با توجه به ویژگی‌های معنایی اشیاء ابریشمی نشان‌داده‌شده در تصاویر مرتبط، یک افت طبقه‌بندی کمکی اضافی را معرفی می‌کنیم. برای این منظور، ما از یک نوع از دست دادن طبقه‌بندی چند وظیفه‌ای بهره‌برداری می‌کنیم که همچنین قادر به مقابله با حاشیه‌نویسی‌های گمشده است [ ۵۵ ].

۳٫ روش شناسی

هدف اصلی روش پیشنهادی بازیابی تصویر بر اساس توصیفگرهایی است که می توانند به عنوان نمایه ای برای پایگاه داده عمل کنند. نتیجه از مجموعه k تشکیل شده استتصاویر در یک پایگاه داده با شبیه ترین توصیفگرها به توصیف کننده یک تصویر پرس و جو. رویکرد ما برای یادگیری توصیفگرها به مجموعه ای از تصاویر با حاشیه نویسی شناخته شده برای مجموعه دلخواه از متغیرها نیاز دارد. این حاشیه نویسی ممکن است ناقص باشد. به عنوان مثال، حاشیه نویسی برای برخی از متغیرها ممکن است برای برخی یا حتی همه نمونه ها وجود نداشته باشد. روش ما بر اساس یک CNN است که یک تصویر RGB را به عنوان ورودی می گیرد و توصیفگر مورد نیاز را تولید می کند. در فرآیند آموزش، یاد می‌گیرد که توصیف‌گرهایی تولید کند که فاصله‌های اقلیدسی آن‌ها به طور ضمنی اطلاعاتی در مورد درجه شباهت تصاویر ورودی ارائه می‌کند. در این زمینه، تمرکز ما بر روی تشابه معنایی است، که شباهت دو تصویر را با درجه تطابق ویژگی‌های معنایی این تصاویر اندازه‌گیری می‌کند. همانطور که در [ ۲۱]، جنبه های شباهت بصری می تواند یادگیری شباهت معنایی را با فرکانس بسیار متفاوت از ویژگی های فردی بهبود بخشد، بنابراین ترکیبی از مفاهیم معنایی و بصری شباهت نیز در اینجا در نظر گرفته شده است، اما در شکل کمی تغییر یافته در مقایسه با [ ۲۱ ]. داده های آموزشی به طور خودکار از داده های موجود استخراج می شوند.
ایده اصلی این مقاله ترکیب یادگیری توصیفی با یادگیری چند وظیفه ای برای پیش بینی ویژگی های معنایی مورد استفاده برای تعریف شباهت معنایی است. یک نمایش مشترک که هم برای تولید توصیفگرها و هم برای پیش‌بینی برچسب‌های کلاس متغیرهای معنایی چندگانه استفاده می‌شود، با به حداقل رساندن فقدان مربوط به شباهت جفت‌ها یا سه‌گانه تصاویر همراه با فقدان طبقه‌بندی چند وظیفه‌ای، به‌صورت سرتاسر یاد می‌شود. . فرض بر این است که افزودن فقدان طبقه‌بندی به یادگیری توصیفگر منجر به توصیف‌کننده‌هایی می‌شود که فاصله‌های اقلیدسی آن‌ها درجه تشابه معنایی جفت‌های تصویر مربوطه را به روشی بهتر منعکس می‌کند. انتظار می‌رود که این ترکیب منجر به خوشه‌های بهتر مربوط به تصاویر با ویژگی‌های معنایی مشابه شود، زیرا این امر مورد علاقه هر دو نوع کار در آموزش است.
بقیه این بخش با شرح مفصلی از معماری CNN در بخش ۳٫۱ شروع می شود . در بخش ۳٫۲ ، روش آموزش و همچنین تابع ضرر پیشنهادی برای آموزش CNN معرفی شده است. برای اینکه این مقاله مستقل باشد، بخش ۳٫۲٫۱ به طور خلاصه مفاهیم تشابه معرفی شده در [ ۲۱ ] و همچنین شرح مفصلی از ادغام مفاهیم شباهت در هدف آموزشی بازیابی تصویر را ارائه می کند. از دست دادن طبقه بندی تصویر کمکی در بخش ۳٫۲٫۲ توضیح داده شده است . در نهایت، جزئیات در مورد نحوه تولید دسته های آموزشی را می توان در بخش ۳٫۳ یافت .

۳٫۱٫ معماری شبکه

هدف اصلی CNN نگاشت یک تصویر ورودی x به یک توصیفگر تصویر است برای بازیابی تصویر استفاده شود. برای این منظور، معماری شبکه ارائه شده در شکل ۱ پیشنهاد شده است. از سه بخش اصلی تشکیل شده است: بخش استخراج ویژگی که ویژگی ها را ارائه می دهد ، یک هد بازیابی تصویر که توصیفگر واقعی را ارائه می دهد و یک سر طبقه بندی که نمرات کلاس عادی را ارائه می دهد که می تواند به عنوان احتمالات پسین تعبیر شود برای کلاس k از متغیر معنایی m . سر طبقه بندی فقط در طول آموزش وجود دارد تا امکان از دست دادن طبقه بندی کمکی را فراهم کند که قرار است از یادگیری توصیفگر پشتیبانی کند.
بخش استخراج ویژگی یک ستون فقرات ResNet152 [ ۵۶ ] بدون لایه طبقه بندی است. یک تصویر ورودی RGB x به اندازه ۲۲۴ در ۲۲۴ پیکسل می گیرد و یک بردار ویژگی ۲۰۴۸ بعدی را محاسبه می کند. ، جایی که بردار حاوی تمام وزن ها و بایاس های ResNet152 را نشان می دهد. خروجی ResNet آرگومان یک ReLU (واحد خطی تصحیح شده [ ۵۷ ]) غیرخطی و پس از آن، انصراف [ ۵۸ ] با یک احتمال است. اعمال می شود. این به دنبال دارد لایه های کاملاً متصل ( fc مفصل در شکل ۱ ) متشکل از هر گره آنها در هسته روش ما قرار دارند زیرا بردارهای ویژگی حاصل می شوند ورودی هر دو سر بازیابی تصویر و طبقه بندی هستند. بنابراین، اوزان لایه‌های fc مشترک ، هم تحت‌تاثیر از دست دادن دسته‌بندی چند وظیفه‌ای کمکی و هم از تلفات مورد استفاده برای یادگیری توصیفگر قرار دارند. بر این اساس، فرض بر این است که نمایش تصویر آموخته شده است با توجه به حاشیه نویسی معنایی تصویر ورودی معنادارتر است.
هد بازیابی تصویر از یک عادی سازی ساده بردار ویژگی تشکیل شده است طول واحد است و به وزن شبکه بیشتری نیاز ندارد. در ادامه مقاله از کوتاه نویسی استفاده می کنیم برای نشان دادن وزن هایی که بر توصیفگر تأثیر دارند. نتیجه نرمال سازی، توصیفگر تصویر است برای بازیابی تصویر استفاده شود.

سر طبقه بندی تصویر بردار غیر عادی را می گیرد . پس از پردازش توسط یک فعال سازی ReLU، به M شاخه های جداگانه ارائه می شود که هر کدام مربوط به یک وظیفه طبقه بندی برای یادگیری است. یعنی برای پیش بینی یکی از متغیرهای M. هر انشعاب به لایه fc مشترک متصل می شود و از لایه های کاملاً متصل مخصوص کار – از گره ها، هر کدام با یک ReLU. در نهایت، هر شاخه دارای یک لایه طبقه بندی است – با گره ها، کجا تعداد کلاس هایی است که باید برای متغیر m متمایز شوند و نمرات کلاس غیرعادی را ارائه می دهند . وزنه ها نشان دهنده تمام اوزان در سر طبقه بندی، که در آن وزن های موجود در لایه ها را نشان می دهد – و وزن لایه ها هستند – . همه لایه‌های طبقه‌بندی M دارای یک فعال‌سازی softmax [ ۵۹ ] هستند که نمرات کلاس نرمال شده را ارائه می‌کنند.

که می توان آن را به احتمالات پسین تعبیر کرد ; به عنوان مثال، اعتقادات شبکه مبنی بر اینکه تصویر ورودی x متعلق به کلاس k برای متغیر m است.

۳٫۲٫ آموزش شبکه

آموزش CNN نشان داده شده در شکل ۱ با به حداقل رساندن یک تابع ضرر به دست می آید . CNN پیشنهادی دارای دو مجموعه پارامتر از دیدگاه آموزش است: وزن ها از ResNet152 و وزن های باقی مانده از لایه های اضافی وزنه ها با وزن های از پیش آموزش دیده به دست آمده در مجموعه داده ILSVRC-2012-CLS [ ۶۰ ] مقداردهی اولیه می شوند، در حالی که وزن ها از لایه های اضافی CNN به طور تصادفی با استفاده از مقیاس بندی واریانس مقداردهی اولیه می شوند [ ۶۱ ]. از آنجایی که انتظار می‌رود پارچه‌های ابریشمی یا سایر اشیاء در زمینه میراث فرهنگی به حوزه دیگری غیر از اشیاء نشان‌داده‌شده در مجموعه داده ImageNet تعلق داشته باشند، آخرین بلوک‌های باقی‌مانده شامل لایه ها به طور بالقوه دقیق تنظیم شده اند [ ۶۲ ]. مشخص کردن پارامترهای لایه های ResNet منجمد شده توسط و لایه های ResNet تنظیم شده توسط ، پارامترهایی که در آموزش تعیین می شوند عبارتند از . توجه داشته باشید که کل بردار پارامتر تبدیل می شود .
آموزش بر اساس مجموعه ای از نمونه های آموزشی است که شامل تصاویری با حاشیه نویسی معنایی برای حداقل یکی از متغیرهای M است. علاوه بر این، اطلاعاتی که دو یا چند تصویر یک شی را نشان می‌دهند، در صورت وجود می‌توانند در آموزش در نظر گرفته شوند. به عنوان مثال، تصاویر را می توان از یک پایگاه داده حاوی رکوردهایی در مورد اشیایی که با چندین تصویر مرتبط هستند صادر کرد [ ۲۱ ]. آموزش بر پایه مینی دسته ای نزولی گرادیان تصادفی با لحظات تطبیقی ​​است [ ۶۳ ]. در هر تکرار آموزشی، فقط یک دسته کوچک شامل نمونه های آموزشی در نظر گرفته شده است و فقط ضرر به دست آمده برای مینی دسته فعلی برای به روز رسانی پارامترها استفاده می شود . ما از توقف زود هنگام استفاده می کنیم. به عنوان مثال، روش آموزش زمانی خاتمه می یابد که از دست دادن اعتبار سنجی اشباع شود.

از آنجایی که ایده کلیدی این مقاله پشتیبانی از یادگیری توصیفگر با یادگیری همزمان یک طبقه‌بندی کننده چند وظیفه‌ای کمکی به منظور بهبود خوشه‌بندی توصیف‌گرها است. شامل از دست دادن بازیابی تصویر است ، از دست دادن طبقه بندی و از دست دادن منظم :

از دست دادن بازیابی تصویر چندین مفهوم شباهت را برای یادگیری وزن‌های شبکه قابل آموزش ترکیب می‌کند بر اساس مجموعه ای از نمونه های آموزشی به طوری که فواصل اقلیدسی توصیفگرها (ر.ک. شکل ۱ ) با درجه تشابه مطابقت دارد ; این به طور مفصل در بخش ۳٫۲٫۱ توضیح داده شده است . از دست دادن طبقه بندی تصویر وابستگی ریاضی وزن ها را درک می کند در توانایی شبکه برای پیش‌بینی برچسب‌های کلاس صحیح برای همه تصاویر . بنابراین، می توان آن را به عنوان یک اصطلاح از دست دادن کمکی برای یادگیری توصیفگر در نظر گرفت که از خوشه بندی توصیفگرها با توجه به ویژگی های معنایی اشیاء تصویر شده پشتیبانی می کند. جزئیات مربوط به آن ضرر در بخش ۳٫۲٫۲ ارائه شده است. وزنه ها و در معادله ( ۲ ) تأثیر تلفات بازیابی تصویر و طبقه‌بندی را به ترتیب بر تلفات کل کنترل کنید. سرانجام، یک اصطلاح کاهش وزن را نشان می دهد که به صورت [ ۵۹ ] تعریف می شود:

هدف افزودن کاهش وزن به یک تابع کاهش وزن، جلوگیری از تناسب بیش از حد با جریمه کردن مقادیر زیاد است . پارامتر تأثیر مدت تنظیم بر ضرر را کنترل می کند ، به عنوان هایپرپارامتر دیگری که باید تنظیم شود.

۳٫۲٫۱٫ هدف آموزش بازیابی تصویر

از دست دادن بازیابی تصویر باید شبکه را با تطبیق پارامترهای قابل یادگیری آموزش دهد برای تولید توصیفگرهایی به گونه ای که برای هر جفت تصویر ، فاصله اقلیدسی از توصیفگرهای مربوطه و میزان تشابه دو تصویر را نشان می دهد که در آن

که در آن n شاخص یک جفت است که برای توابع زیان متفاوت تعریف می شود. ما یک تابع ضرر را پیشنهاد می کنیم که از سه عبارت از دست دادن شباهت تشکیل شده است:

هر یک از سه عبارت در معادله ( ۵ ) با مفهوم خاصی از شباهت مطابقت دارد و نیاز به نوع خاصی از نمونه های آموزشی تولید شده از تصاویر مینی دسته دارد. . مدت ضرر ، نیاز به یک مجموعه دارد از سه تایی از تصاویر آموزشی از ، شباهت معنایی را در آموزش شبکه ادغام می کند. ترم دوم، ، شباهت رنگ را در نظر می گیرد . نیاز به یک مجموعه دارد از جفت تصاویر آموزشی از . سرانجام، به یادگیری خود شباهت پی می برد و به مجموعه ای نیاز دارد از جفت تصویر از یک شیء استخراج شده از . تاثیر شرایط ضرر فردی بر توسط وزنه ها کنترل می شود ، ، و . پاراگراف های بعدی شامل شرح مفصلی از هر سه مفهوم شباهت و همچنین ادغام آنها در ضررها به ترتیبی است که در معادله ( ۵ ) رخ می دهند. راهی که در آن مجموعه از سه قلو و مجموعه و جفت های تصویر با یک مینی دسته تعیین می شوند در بخش ۳٫۳ به تفصیل شرح داده شده است .

از دست دادن تشابه معنایی

هدف از دست دادن شباهت معنایی یادگیری پارامترهای CNN است به طوری که توصیفگرهای حاصل شباهت معنایی تصاویر مربوطه را منعکس کنند. برای این منظور، مفهوم شباهت معنایی با بهره‌برداری از برچسب‌های کلاس متغیرهای معنایی M مورد نیاز است. درجه هم ارزی برچسب های کلاس متغیرهای M اختصاص داده شده به یک جفت تصویر می توان با استفاده از شباهت معنایی تعریف شده در [ ۲۱ ] اندازه گیری کرد:

در معادله ( ۶ )، با نشان می دهد که آیا برچسب کلاس متغیر m برای تصویر با شاخص q شناخته شده است ( ) یا نه ( ). مقایسه واقعی برچسب های کلاس متغیر m در معادله ( ۶ ) توسط تابع محقق می شود

جایی که یک بردار است که برچسب کلاس را برای متغیر m که به آن اختصاص داده شده است نشان می دهد ، با . اگر کلاس k از متغیر m به تصویر اختصاص داده شود ، نشانگر ۱ است؛ در غیر این صورت، . بنابراین، تابع دلتای کرونکر در صورتی که برچسب کلاس k به هر دو اختصاص داده شود، ۱ را برمی گرداند و ، و در همه موارد دیگر ۰ را برمی گرداند. این رسمی شدن به این معنی است که برچسب برای متغیر m ممکن است ناشناخته باشد یا برای یا برای هر دوی آنها اگر حاشیه نویسی برای همه متغیرها مشخص باشد، تمام مقادیر ۱ خواهد بود و با درصد حاشیه نویسی یکسان برای دو تصویر مطابقت دارد. در نتیجه، عدم قطعیت در مورد هم ارزی برچسب های کلاس متغیرهای M بستگی به درصد متغیرهایی دارد که یا هیچ حاشیه نویسی ندارد که بتوان آن را به صورت بیان کرد

هدف از دست دادن شباهت معنایی یادگیری پارامترهای CNN است به طوری که شباهت معنایی از جفت تصویر تعریف شده در معادله ( ۶ ) با شباهت توصیفگر مطابقت دارد در معادله ( ۴ ). برای این منظور، از دست دادن سه گانه [ ۲۵ ] در [ ۲۱ ] اقتباس شد، که منجر به از دست دادن شباهت معنایی شد.

تابع ضرر در معادله ( ۹ ) به سه گانه نیاز دارد با ، هر کدام از یک نمونه لنگر تشکیل شده است ، یک نمونه مثبت و یک نمونه منفی ، جایی که نمونه ای است که بیشتر شبیه نمونه لنگر است . این زیان نیروهای داشتن فاصله اقلیدسی از که کوچکتر از فاصله است از جانب حداقل با یک حاشیه :

در معادله ( ۱۰ ) عدم قطعیت وضعیت شباهت جفت را نشان می دهد با توجه به معادله ( ۸ ). بنابراین، اصطلاح را می توان به عنوان حداکثر شباهت معنایی مثبت تفسیر کرد (به عنوان مثال، با فرض یکسان بودن همه حاشیه نویسی های از دست رفته)، و حاشیه به تفاوت بین شباهت تبدیل می شود لنگر و نمونه مثبت و حداکثر شباهت مثبت لنگر و نمونه منفی. بر این اساس، را می توان به عنوان تفاوت تضمین شده در شباهت معنایی بین جفت تصویر تفسیر کرد و . محدودیت بیان شده در معادله ( ۱۰ ) در تعریف مجموعه سه قلوهای در نظر گرفته شده در این از دست دادن در نظر گرفته می شود: فقط سه قلو از تصاویری که آن محدودیت را برآورده می کنند برای کمک به این ضرر واجد شرایط هستند (به بخش ۳٫۳ مراجعه کنید ).

از دست دادن شباهت رنگ

هدف از دست دادن شباهت رنگ یادگیری پارامترهای CNN است به طوری که توصیفگرهای حاصل برای تصاویر با توزیع رنگ مشابه مشابه و برای تصاویر با توزیع رنگ متفاوت متفاوت باشند. توافق بین توزیع رنگ دو تصویر و ، که به عنوان شباهت رنگ نشان داده می شود، می تواند با استفاده از ضریب همبستگی متقاطع نرمال شده محاسبه شود بردارهای ویژگی رنگ و [ ۲۱ ]:

جایی که هست عنصر از با ، تعداد عناصر یک بردار ویژگی است و میانگین بر همه است . وکتور ویژگی رنگ از یک تصویر توزیع رنگ آن تصویر را در فضای رنگی HSV ( H : hue، S : saturation، V : value) توصیف می کند. برای استخراج این بردار ویژگی، مقادیر H رنگ و اشباع S هر پیکسل از تصویر است تغییر اندازه به ۲۲۴ × ۲۲۴ پیکسل به عنوان مختصات قطبی در نظر گرفته می شود. آنها را می توان به مختصات دکارتی تبدیل کرد

به طوری که تمام ارزش های و در محدوده هستند . ما یک شبکه گسسته متشکل از سلول های شطرنجی (از r = ۵ استفاده می کنیم) و تعداد نقاط را می شماریم در هر سلول شطرنجی . در نهایت، ردیف های مربوطه را به هم متصل می کنیم تا بردار را تشکیل دهیم . بدین ترتیب، تعداد نقاط در سلول شطرنجی است ، جایی که ; این دلالت می کنه که .

ضریب همبستگی وابستگی خطی بین دو بردار ویژگی رنگ را بیان می کند و . در صورت توزیع رنگ یکسان از در فضای رنگی HSV، توصیفگرهای رنگ یکسان هستند و بنابراین ۱ می شود که نشان دهنده ۱۰۰٪ شباهت رنگ است. هرچه ضریب همبستگی کمتر باشد، درجه تشابه کمتری فرض می شود.

هدف از دست دادن شباهت رنگ یادگیری توصیفگرها است که فاصله اقلیدسی با شباهت رنگ مطابقت دارد از جفت تصویر در معادله ( ۱۱ ) تعریف شده است. این را می توان با به حداقل رساندن تابع ضرر زیر به دست آورد [ ۲۱ ]

این تابع از دست دادن به جفت نیاز دارد از تصاویر از مینی دسته، با ; تعداد جفت تصاویر از . در اصل، فاصله توصیفگر را مجبور می کند کوچک بودن برای جفت تصاویر با شباهت رنگی زیاد و بزرگ بودن برای جفت تصویر با شباهت کم. اگر ، نشان دهنده شباهت ۱۰۰٪ رنگ از و ، فاصله توصیفگر مجبور به صفر می شود. در حالت شدید دیگر حداکثر عدم تشابه – یعنی -باید باشد -یعنی حداکثر فاصله توصیفگر ممکن با توجه به این واقعیت که توصیفگرها به طول واحد نرمال شده اند (به بخش ۳٫۱ مراجعه کنید ).

از دست دادن خود شباهت

هدف از دست دادن خود تشابهی این است که یاد بگیریم که توصیفگرهای تصاویری که یک شی را نشان می‌دهند مشابه هستند و بنابراین، توصیف‌کننده‌هایی را یاد بگیریم که تا حدی نسبت به تبدیل‌های هندسی و رادیومتری ثابت نیستند. خود شباهت یعنی یک تصویر شبیه به یک تصویر تعریف شده است که همان شی را به تصویر می کشد. این تنها مفهوم شباهت در روش ما است که تدریجی نیست. تلفات مربوطه مستلزم فاصله توصیفگر همه جفت ها است صفر شود [ ۲۱ ]:

این تابع از دست دادن به جفت نیاز دارد از تصاویر که در آن تصویری از مینی دسته است، با . همانطور که برای هر تصویر یک جفت وجود خواهد داشت ، ما داریم . دو گزینه برای منشا وجود دارد تصویر داده شده .
  • اگر مجموعه داده حاوی تصاویری باشد که همان شی را نشان می دهد، به عنوان یکی از این اشیاء انتخاب شده است. این مطابق با قانون ۱ از شباهت مبتنی بر قانون پیشنهاد شده در [ ۲۱ ] است. توجه داشته باشید که ضرر مبتنی بر قانون مربوط به [ ۲۱ ] در این مقاله در نظر گرفته نشده است.
  • اگر مجموعه داده حاوی چنین تصاویری نباشد یا مشخص نباشد که حاوی چنین تصاویری است، تصویر به صورت مصنوعی از تولید می شود و در این مورد، از دست دادن در معادله ( ۱۴ ) می تواند به عنوان گونه ای از افزایش داده ها دیده شود. این تنها موردی است که در از دست دادن شباهت خود [ ۲۱ ] در نظر گرفته شده است.
در مقایسه با [ ۲۱ ]، مجموعه ای از تبدیل ها به طور بالقوه اعمال می شود در مورد دوم گسترش یافته است. این شامل تبدیل های هندسی زیر است: چرخش ۹۰ ، چرخش افقی و عمودی، برش با درصد تصادفی و چرخش های تصادفی کوچک . مجموعه تحولات رادیومتری بالقوه شامل تغییر رنگ است با افزودن یک دلتای مقدار تصادفی و انطباق اشباع S با ضرب آن در یک عامل تصادفی . در نهایت، صفر تصادفی نویز گوسی میانگین با انحراف معیار می توان برای تولید تصویر اضافه کرد .
همانطور که در بالا توضیح داده شد، ما مفهوم خود شباهت را در [ ۲۱ ] با اولویت بندی تصاویر گسترش داده ایم. استخراج شده از مجموعه داده در طول یک نسل مصنوعی از برای تعریف یک جفت تصویر .

۳٫۲٫۲٫ هدف آموزش چند وظیفه ای کمکی

یک طبقه‌بندی چند وظیفه‌ای کمکی قرار است از یادگیری توصیفگر برای تولید خوشه‌هایی از توصیفگرهای تصویری که بهتر با تصاویر اشیاء با ویژگی‌های معنایی مشابه مطابقت دارند، پشتیبانی کند. همانطور که این کاهش وزن ها را تحت تاثیر قرار می دهد از لایه‌های fc مشترک، انتظار می‌رود که از CNN در تولید توصیفگرها پشتیبانی کند که نشان دهنده ویژگی های خاص متغیر در تصاویر است به روشی بهتر

در [ ۵۵ ]، از دست دادن طبقه بندی چند وظیفه ای برای آموزش CNN برای پیش بینی متغیرهای متعدد مرتبط با تصاویر پارچه های ابریشمی پیشنهاد شد:

این یک توسعه از آنتروپی متقاطع softmax برای یادگیری چند کاره با حاشیه نویسی های گم شده است. متغیرهای M است. در معادله ( ۱۵ )، نشان دهنده خروجی softmax برای کلاس k است متغیر m است، تعداد کلاس های مربوطه است و یک متغیر شاخص با اگر k برچسب کلاس واقعی متغیر m باشد برای تصویر باشد و در غیر این صورت. جمع دوم فقط روی متغیرها گرفته می شود ، جایی که به عنوان زیرمجموعه ای از متغیرها تعریف می شود که حاشیه نویسی برای آنها در دسترس است. به منظور کاهش مشکلات با کلاس‌های کمتر ارائه‌شده، ما تلفات در معادله ( ۱۵ ) را با یک نوع از دست دادن کانونی گسترش می‌دهیم [ ۶۴ ]. در حالی که نوع ارائه شده [ ۶۵ ] بر نمونه های تمرین سخت در مسائل طبقه بندی چند کلاسه تمرکز دارد، ما از ترکیبی از افت کانونی چند کلاسه در [ ۶۵ ] و از دست دادن چند وظیفه در معادله ( ۱۵ ) استفاده می کنیم که منجر به از دست دادن کانونی چند کاره چند کلاسه:

در معادله ( ۱۶ )، تعداد حاشیه نویسی های موجود برای همه متغیرهای M است. یعنی . پارامتر فوکوس تأثیر وزن کانونی را کنترل می کند در مورد از دست دادن . همانطور که وزن کانونی ۱ برای می شود و وزن کانونی ۰ برای می شود ، از دست دادن به شدت بستگی دارد با نمرات سافت مکس کوچک . بنابراین، وزن شبکه به شدت تحت تأثیر مثال های تمرینی سخت که با کوچک نشان داده شده است برای هنگام به حداقل رساندن . با فرض عدم تعادل کلاس برای توزیع کلاس حداقل یکی از متغیرهای M ، از دست دادن کانونی در معادله ( ۱۶ ) قرار است عملکرد طبقه‌بندی کلاس‌های کمتر ارائه‌شده را بهبود بخشد، زیرا نمرات کلاسی چنین کلاس‌هایی عموماً پایین است، بنابراین از CNN نیز پشتیبانی می‌کند. برای تولید توصیف‌گرهایی که به احتمال زیاد به بازیابی تصاویر با ویژگی‌های معنایی مشابه برای تصاویر پرس‌وجو مربوط به کلاس‌های کمتر ارائه‌شده برای برخی متغیرها کمک می‌کنند.

۳٫۳٫ تولید دسته ای

این بخش یک نمای کلی از نحوه یک دسته کوچک از تصاویر را ارائه می دهد با برچسب‌های کلاس مرتبط و همچنین اطلاعات بالقوه نشان‌دهنده تصاویری که یک شی را نشان می‌دهند، پردازش می‌شود تا مجموعه داده‌های مورد نیاز برای شرایط ضرر فردی تولید شود. به طور کلی، از دست دادن طبقه بندی کمکی به مجموعه ای از تصاویر مستقل نیاز دارد، در حالی که شرایط از دست دادن در فقدان بازیابی تصویر به مجموعه هایی از جفت یا سه تایی از تصاویر برای یادگیری شباهت نیاز دارند. به عنوان مثال، برای تولید توصیف کننده هایی که فاصله اقلیدسی زوجی آنها منعکس کننده شباهت است. این مجموعه ها به صورت زیر تولید می شوند:
  • از دست دادن شباهت معنایی در رابطه ( ۹ ) به سه گانه نیاز دارد ∈ . در مرحله اول، تمام سه قلوهای ممکن با برای هر تصویر تولید می شوند . در مورد اعتبار یک سه گانه، نمونه مثبت است باید بیشتر شبیه باشد نسبت به نمونه منفی ، فقط آنهایی که سه قلوهایی که محدودیت مربوط به حاشیه فرموله شده در رابطه ( ۱۰ ) را برآورده می کنند به شبکه ارائه می شوند. به عنوان تعداد وابسته به حاشیه است از روی برچسب های کلاس موجود در یک دسته کوچک محاسبه می شود، از دست دادن با تعداد سه قلو نرمال می شود.
  • از دست دادن شباهت رنگ در معادله ( ۱۳ ) به جفت تصویر نیاز است . برای این منظور، تمام جفت های ممکن در مینی دسته تولید می شوند، به استثنای همه جفت ها با . بنابراین، از دست دادن شباهت رنگ برای محاسبه می شود جفت نمونه های آموزشی، کجا ! فاکتوریل یک عدد را نشان می دهد.
  • از دست دادن شباهت خود به جفت تصویر نیاز دارد . یک جفت از این قبیل در هر تصویر در دسته کوچک وجود دارد. همانطور که در بخش ۳٫۲٫۱ توضیح داده شد ، اگر تصاویر دیگری در مجموعه داده وجود داشته باشد که همان شی را نشان می دهد. ، یکی از این تصاویر به صورت تصادفی به عنوان شریک انتخاب می شود . در غیر این صورت، به صورت مصنوعی با استفاده از یک تبدیل تصادفی ترسیم شده همانطور که در تعریف شده است، تولید می شود بخش ۳٫۲٫۱ تعریف شده است، تولید می شود .
    این منجر به جفت تصویر .
  • از دست دادن طبقه بندی در معادله ( ۱۶ ) به مجموعه ای از تصاویر مستقل نیاز دارد با کلاس های شناخته شده برای تمام متغیرهای M به منظور یادگیری به گونه ای که پیش بینی ها بهینه شود. بر این اساس، همه تصاویر در دسته کوچک را می توان به از دست دادن طبقه بندی ارائه شده است. از آنجایی که برچسب‌های کلاس به طور بالقوه برای همه متغیرهای M در دسترس نیستند ، به طور بالقوه کمتر از آن هستند اصطلاحات آنتروپی متقاطع که از دست دادن طبقه‌بندی را در مورد برچسب‌های کلاس متقابلاً منحصر به فرد در هر متغیر تشکیل می‌دهند. بنابراین، ضرر با تعداد برچسب های کلاس شناخته شده عادی می شود برای متغیرهای M ؛ به عنوان مثال، تعداد اصطلاحات تشکیل دهنده ضرر.
با توجه به عادی سازی تمام شرایط زیان با تعداد شرایط حاصل از مجموع توابع زیان، زیان کل نسبت به شرایط زیان با تعداد مجموع بیشتر تعصب ندارد.

۴٫ مجموعه داده

این بخش مجموعه داده هایی را توصیف می کند که برای ارزیابی روش توصیف شده در بخش ۳ استفاده می شوند. اولین مجموعه داده، به عنوان مجموعه داده SILKNOW، در بخش ۴٫۱ معرفی شده است . این شامل تصاویری از پارچه های ابریشمی است و برای ارزیابی کامل رویکرد بازیابی تصویر پیشنهادی استفاده می شود. مجموعه داده دوم، شرح داده شده در بخش ۴٫۲ ، گونه ای از مجموعه داده های WikiArt است و حاوی تصاویری از نقاشی های چند قرن اخیر است. این مجموعه داده برای تجزیه و تحلیل قابلیت انتقال روش پیشنهادی به سایر مجموعه داده‌های میراث فرهنگی استفاده می‌شود.

۴٫۱٫ مجموعه داده SILKNOW

مجموعه داده SILKNOW بر اساس نمودار دانش SILKNOW [ ۱ ، ۲۱ ] است که در چارچوب پروژه EU-H2020 SILKNOW با هدف ایجاد و ارائه یک پلت فرم ( https://ada.silknow.org/ ، بازدید شده) ایجاد شده است. در ۳۰ نوامبر ۲۰۲۱) حاوی اطلاعاتی درباره میراث فرهنگی ابریشم اروپا. این نمودار حاوی سوابقی از پارچه‌های ابریشمی ساده و همچنین منسوجات فرآوری‌شده است که از مجموعه‌های آنلاین موزه‌های مختلف برداشت شده‌اند. به عنوان مثال، Museu Tèxtil de Terrassa (مجموعه داده IMATEX) [ ۶۶] یا موزه هنرهای زیبای بوستون. هر رکورد مربوط به یک مصنوع است و بسیاری از رکوردها حداقل یک تصویر دارند. اطلاعات معنایی موجود در وب‌سایت‌های جمع‌آوری‌شده در قالب پروژه SILKNOW بر اساس یک اصطلاحنامه، که یکی دیگر از نتایج این پروژه است، به یک قالب استاندارد شده نگاشت شد. علاوه بر این، نگاشت اطلاعات موجود به یک ساختار کلاس ساده برای متغیرهای ماده ، مکان ، بازه زمانی وجود دارد که اساس مجموعه داده مورد استفاده در این مقاله را تشکیل می‌دهد. و تکنیک
مجموعه داده SILKNOW مورد استفاده در این مقاله از نمودار دانش SILKNOW صادر شده است. این شامل ۴۸۸۳۰ تصویر از پارچه های ساده است که هر تصویر با یک حاشیه نویسی معتبر در حداقل یکی از چهار متغیر ذکر شده در بالا همراه است. برای جلوگیری از کلاس‌هایی که به شدت کمتر ارائه می‌شوند، فقط برچسب‌هایی که حداقل ۱۵۰ بار رخ می‌دهند معتبر تلقی می‌شوند. علاوه بر این، یک شناسه شی منحصر به فرد با هر تصویر مرتبط می شود، به طوری که اطلاعات مورد نیاز برای شناسایی تصاویری که همان شی را نشان می دهند، در تعریف جفت تصویر برای از دست دادن خود شباهت استفاده می شود (به بخش ۳٫۲٫۱ مراجعه کنید. ) در دسترس باشد. به منظور ارزیابی روش شناسی ارائه شده در بخش ۳مجموعه داده به طور تصادفی به یک مجموعه آموزشی (۶۰٪)، یک مجموعه اعتبارسنجی (۲۰٪) و یک مجموعه تست (۲۰٪) تقسیم شد. مجموعه تمرینی به زیرمجموعه‌ای از تصاویر که برای به‌روزرسانی وزنه‌های قابل تمرین استفاده می‌شوند و زیرمجموعه دیگری برای توقف زودهنگام تقسیم می‌شوند. آمار توزیع کلاس ها در همه متغیرها و همه زیر مجموعه ها در جدول ۱ آمده است.
همانطور که آمار در جدول ۱ نشان می دهد، مجموعه داده نامتعادل است، که آن را چالش برانگیز می کند. بسته به متغیر، مقدار برچسب های کلاس موجود بین ۳۲٫۲٪ برای تکنیک و ۷۲٫۴٪ برای مواد متفاوت است. از بین تصاویر موجود در مجموعه داده، ۶۱۴۳ دارای حاشیه نویسی برای هر چهار متغیر هستند. برای ۱۳۷۷۱ تصویر، برچسب‌های کلاس برای سه متغیر از چهار متغیر شناخته شده است و ۱۹۴۲۱ تصویر با حاشیه‌نویسی برای دو متغیر وجود دارد. علاوه بر این، تعداد کلاس هایی که باید متمایز شوند بین ۳ کلاس برای مواد و ۱۷ کلاس برای مکان متغیر متفاوت است . نمونه هایی از تصاویر پارچه های ابریشمی ساده را می توان در شکل ۲ مشاهده کرد.

۴٫۲٫ مجموعه داده ویکی آرت

در سال‌های اخیر، آثار زیادی به بررسی طبقه‌بندی تصاویر مجموعه‌های میراث فرهنگی پرداخته‌اند که بیشتر آنها به طبقه‌بندی تصاویر نقاشی‌ها، مانند موارد موجود در مجموعه داده‌های ویکی آرت، پرداخته‌اند. از آنجایی که مجموعه داده WikiArt از تصاویر و همچنین حاشیه نویسی برای چندین متغیر معنایی تشکیل شده است، نه تنها برای ارزیابی وظایف طبقه بندی مناسب است، بلکه الزامات روش بازیابی تصویر ما را نیز برآورده می کند. بنابراین، مجموعه داده WikiArt را برای نشان دادن قابلیت انتقال رویکرد خود به سایر مجموعه‌های دیجیتال غیر ابریشم در زمینه میراث فرهنگی انتخاب کردیم. از آنجایی که مجموعه داده WikiArt به طور مداوم در طول زمان در حال رشد است، ما تصمیم گرفتیم از نسخه WikiArt استفاده کنیم ( https://github.com/cs-chan/ArtGAN/tree/master/WikiArt%20Dataset ، بازدید شده در ۳۰ نوامبر ۲۰۲۱) که توسط نویسندگان [ ۴۰ ] ارائه شده است استفاده کنیم.]. آنها نه تنها داده های تصویر (در مجموع ۸۱۴۴۴ تصویر) و برچسب های کلاس مرتبط را برای سه متغیر ژانر ، سبک و هنرمند منتشر کردند، بلکه داده های آنها برای آموزش و اعتبارسنجی برای هر متغیر تقسیم شد. ما از همان تقسیم استفاده می کنیم و آموزش شبکه و همچنین تنظیم هایپرپارامتر را در مجموعه آموزشی آنها انجام می دهیم، در حالی که مجموعه اعتبارسنجی آنها منحصراً برای آزمایش مدل آموزش دیده و تنظیم شده استفاده می شود.
برخلاف آزمایش‌های یادگیری تک وظیفه‌ای در [ ۴۰ ]، ما یک هدف یادگیری چند وظیفه‌ای را در زمینه بازیابی تصویر در نظر می‌گیریم، و همچنین شباهت را بر اساس متغیرهای متعدد تعریف می‌کنیم. در نتیجه، ما تقسیم داده‌های ارائه‌شده را با حذف تصاویری که هم در آموزش و هم در مجموعه‌های اعتبارسنجی برای هر متغیر رخ می‌دهند، اصلاح می‌کنیم. بنابراین، مجموعه داده‌ای از ۸۰۸۸۰ تصویر با حداکثر سه برچسب کلاس در هر تصویر (یکی برای هر متغیر) با مجموعه‌های آموزشی و اعتبار سنجی ناهمگون به دست می‌آوریم. علاوه بر این، مجموعه آموزشی را به دو زیر مجموعه مجزا تقسیم کردیم. یکی برای آموزش شبکه و دیگری برای تنظیم هایپرپارامتر. در ادامه این مقاله، زیر مجموعه را برای آموزش شبکه به عنوان مجموعه آموزشی و زیر مجموعه را برای تنظیم هایپرپارامتر به عنوانمجموعه اعتبار سنجی. مجموعه ای که به عنوان مجموعه اعتبارسنجی در [ ۴۰ ] نامیده می شود مجموعه آزمایشی ما نامیده می شود . مشابه مجموعه داده SILKNOW، مجموعه داده آموزشی نیز به دو زیرمجموعه مستقل تقسیم می‌شود: به‌روزرسانی ، شامل ۷۵ درصد از نمونه‌های آموزشی برای به‌روزرسانی وزن، و توقف ، شامل ۲۵ درصد نمونه‌های باقی‌مانده برای توقف زودهنگام.
ساختارهای کلاس به‌دست‌آمده و همچنین توزیع کلاس‌های سه متغیر معنایی ژانر ، هنرمند و سبک در مجموعه داده‌های WikiArt چند وظیفه‌ای ما را می‌توان در شکل ۳ یافت . برای ژانر متغیر ، ۱۰ کلاس متفاوت است، با تعداد نمونه‌ها در هر کلاس بین ۱۸۷۹ برای تصویر کلاس و ۱۴۰۱۰ برای پرتره کلاس متفاوت است. برای هنرمند متغیر ، ۲۳ کلاس وجود دارد که حداقل و حداکثر تعداد نمونه ها به ترتیب ۴۶۱ ( سالوادور دالی ) و ۱۸۶۴ ( ونسان ون گوگ ) است. در نهایت، ۲۷ مختلف وجود دارد کلاس های سبک با حداقل ۱۰۶) است.کوبیسم تحلیلی ) و حداکثر ۱۲۹۴۱ تصویر در هر کلاس ( امپرسیونیسم ). شایان ذکر است که برچسب کلاس برای هنرمند متغیر برای ۲۳٫۲٪ از ۸۰۸۸۰ تصویر در مجموعه داده چند وظیفه ای موجود است، اطلاعات مربوط به ژانر نقاشی نشان داده شده برای ۷۹٫۷٪ از تصاویر و فقط سبک موجود است. اطلاعات برای همه تصاویر شناخته شده است. نمونه هایی برای تصاویر در مجموعه داده WikiArt در شکل ۴ نشان داده شده است.

۵٫ آزمایش ها و نتایج

در این بخش، روش یادگیری توصیفگرها برای بازیابی تصویر شرح داده شده در بخش ۳ ارزیابی می شود. ما با مروری بر آزمایش های انجام شده و شرح استراتژی ارزیابی برای مقایسه نتایج آزمایش های مختلف شروع می کنیم ( بخش ۵٫۱ ). یک مطالعه فرسایشی که تأثیر مؤلفه‌های مختلف رویکرد پیشنهادی را بررسی می‌کند را می‌توان در بخش ۵٫۲ یافت . همه این آزمایش‌ها بر اساس مجموعه داده SILKNOW (ر.ک. بخش ۴٫۱ ) هستند، که مربوط به مورد استفاده است که روش عمدتاً برای آن توسعه یافته است. برای نشان دادن قابلیت انتقال روش به سایر مجموعه‌های داده برچسب‌گذاری شده، ارزیابی نسخه مجموعه داده WikiArt شرح داده شده در بخش ۴٫۲نیز انجام شد. نتایج در بخش ۵٫۳ گزارش شده است.

۵٫۱٫ راه اندازی آزمون و استراتژی ارزیابی

به منظور آموزش CNN ارائه شده در بخش ۳٫۱ ، مجموعه های آموزشی مجموعه داده ها همانطور که در بخش ۴ تعریف شده است برای تعیین وزن شبکه استفاده می شود. در حالی که مجموعه اعتبارسنجی برای یافتن فراپارامترهای بهینه استفاده شد. مجموعه‌های آزمون برای ارزیابی مستقل استفاده می‌شوند که نتایج آن در بخش‌های بعدی گزارش می‌شود.

۵٫۱٫۱٫ تنظیم تست عمومی

در فرآیند آموزش، تلفات ارائه شده در معادله ( ۲ ) با استفاده از نزول گرادیان کوچک دسته ای تصادفی [ ۵۹ ] با اندازه دسته ای به حداقل می رسد. استفاده از بهینه ساز Adam [ ۶۳ ] با استفاده از پارامترهای استاندارد ( ، ، و ) تا زمانی که از دست دادن یک زیرمجموعه مستقل از داده های آموزشی که به عنوان توقف در بخش ۴ مشخص شده است، اشباع شود.
مجموعه‌ای از آزمایش‌های اولیه – که به دلیل کمبود فضا در اینجا گزارش نشده است – برای تنظیم فراپارامترهای روش ما با ارزیابی نتایج روی مجموعه اعتبارسنجی استفاده شد. همه اینها بر روی مجموعه داده SILKNOW انجام شد. در آزمایش‌های مبتنی بر مجموعه داده WikiArt، از همان پارامترها استفاده شد. تا آنجا که به ساختار CNN مربوط می شود، مشخص شد که استفاده از یک لایه کاملاً متصل با ۲۵۶ گره برای fc مشترک – یعنی با استفاده از و – بر انواع با لایه های بیشتر یا گره های بیشتر در هر لایه ترجیح داده می شود. معماری بهینه برای شاخه های طبقه بندی متشکل از لایه با گره ها تنظیم فراپارامتر با استفاده از نرخ یادگیری تایید کرد از همچنین انتخاب خوبی برای برنامه ما است. مقادیر بهینه برای نرخ ترک تحصیل بود ، برای کاهش وزن بود ، و f یا پارامتر در افت کانونی (معادله ( ۱۶ ))، بود . تا حدودی تعجب آور است، تنظیم دقیق آخرین بلوک های باقی مانده از ستون فقرات ResNet152 عملکرد را بهبود نمی بخشد. در نتیجه، تعداد لایه‌هایی که باید تنظیم شوند تنظیم شد ، که دلالت بر این دارد که اوزان تعیین شده در قبل از تمرین بدون تغییر باقی می ماند. در نتیجه بردار پارامترهای ResNet دقیق تنظیم شده بردار صفر است و بردار پارامترهای قابل آموزش (ر.ک. بخش ۳٫۲ ).

۵٫۱٫۲٫ سری تست

بخش ۵٫۲ و بخش ۵٫۳ نتایج تجربی دو سری آزمایش را نشان می دهد. در اولین سری که بر روی مجموعه داده SILKNOW انجام شد (به بخش ۴٫۱ مراجعه کنید )، تأثیر شرایط زیان فردی را تشکیل می دهد. (معادله ( ۲ )) بر روی نتایج بازیابی تصویر ارزیابی می شود. این سری آزمایش همچنین پتانسیل روش ما را برای تولید توصیفگرهایی برای بازیابی تصویر در موردی که در ابتدا برای آن طراحی شده بود نشان می‌دهد. برای این منظور، مقادیر مختلف برای و همچنین مقادیر مختلف برای بررسی می شوند. جدول ۲ مروری بر آزمایش های انجام شده، شناسایی هر یک از آنها با نام و ارائه تنظیمات پارامتر مربوطه می دهد. به منظور تفسیر بهتر تفاوت‌های عملکرد با توجه به اجزای تصادفی روش آموزش، هر آزمایش پنج بار اجرا می‌شود که منجر به میانگین معیارهای ارزیابی و یک انحراف استاندارد متناظر می‌شود.
پارامترسازی تابع زیان متغیری که در سری اول آزمایش‌ها بهترین است، برای آزمایش‌های سری آزمایشی دوم انتخاب شده است، علاوه بر متغیری که در آن همه عبارت‌های ضرر به ضرر کل کمک می‌کنند. سری دوم باید قابلیت انتقال نتایج را به برنامه های دیگری غیر از برنامه ای که در ابتدا برای آن طراحی شده بود نشان دهد. متأسفانه، ما نتوانستیم هیچ مطالعه ای را پیدا کنیم که مقایسه منصفانه روش ما امکان پذیر باشد، زیرا در زمینه بازیابی تصویر تک وجهی برای کاربردهای میراث فرهنگی، ما از هیچ مقاله ای که هم نتایج و هم مجموعه داده های مورد استفاده برای آن استفاده می شود، بی اطلاع هستیم. دستیابی به آنها در دسترس است.

استراتژی ارزیابی

اگر هیچ نمونه ای از جفت تصاویر با وضعیت شباهت شناخته شده شناخته نشده باشد، ارزیابی یک روش بازیابی تصویر ساده نیست. با این حال، هدف اصلی روش ارائه شده در این مقاله، بازیابی تصاویری با خصوصیات معنایی مشابه با تصاویر پرس و جو است. در نتیجه، حاشیه‌نویسی معنایی موجود مجموعه‌ای از نمونه‌های مرجع (مجموعه آزمایشی مجموعه داده مربوطه که برای ارزیابی استفاده می‌شود) می‌تواند برای ارزیابی کمی استفاده شود. بنابراین، نتایج بازیابی تصویر برای طبقه بندی k نزدیکترین همسایه (kNN) با استفاده می شود ، و ارزیابی بر اساس نتایج طبقه بندی مربوطه است. پس از آموزش شبکه، توصیفگرهای تصاویر موجود در مجموعه آموزشی محاسبه می شوند. این توصیفگرها مجموعه ای از تصاویر را نشان می دهند که در آنها کاربر می خواهد تصاویر مشابه معنایی را جستجو کند. آنها در یک kd-tree [ ۲ ] برای جستجوی سریع kNN سازماندهی شده اند. تصاویر مجموعه آزمایشی به عنوان تصاویر پرس و جو در نظر گرفته می شوند. برای هر یک از آنها یک توصیفگر محاسبه می شود و نزدیک‌ترین همسایه‌ها از درخت kd بازیابی می‌شوند و نتایج به k شبیه‌ترین تصاویر در مجموعه آموزشی دسترسی دارند. اکثریت رای در بین برچسب‌های کلاس تصاویر بازیابی شده، برچسب کلاس یک تصویر پرس و جو را برای همه متغیرها می‌دهد، و این برچسب‌ها را می‌توان برای ارزیابی کمی با برچسب‌های مرجع مقایسه کرد.
برای همه آزمایش‌ها، ما دقت کلی (OA) را گزارش می‌کنیم که درصد تصاویر طبقه‌بندی شده درست را در بین تمام تصاویر ارزیابی‌شده توصیف می‌کند. در این زمینه، OA متغیر m به طور انحصاری بر اساس تصاویر با برچسب کلاس شناخته شده برای متغیر m محاسبه می شود، با در نظر گرفتن این واقعیت که ممکن است برخی از حاشیه نویسی ها برای یک تصویر پرس و جو وجود نداشته باشد. همانطور که توزیع کلاس همه Mمتغیرهای دو مجموعه داده بسیار نامتعادل هستند، ما بیشتر میانگین امتیاز F1 را برای هر متغیر گزارش می‌کنیم. به عنوان مثال، میانگین حسابی تمام نمرات F1 کلاس خاص. امتیاز F1 مخصوص کلاس، میانگین هارمونیک دقت (نشان دهنده درصد پیش بینی های یک کلاس است که در واقع به آن کلاس تعلق دارد) و یادآوری (نشان دهنده درصد نمونه ها در هر کلاس در مرجع است که توسط CNN پیش بینی شده است). بنابراین، بر خلاف OA، میانگین نمرات F1 توسط کلاس‌های غالب در مجموعه داده‌ها تعصب ندارند. همه این معیارهای ارزیابی به طور جداگانه برای اعتبار سنجی و مجموعه تست ارائه شده است.

۵٫۲٫ نتایج آزمایش‌ها با استفاده از مجموعه داده SILKNOW

نتایج سری اول آزمایش‌ها، انجام شده بر روی مجموعه داده SILKNOW، در جدول ۳ ، جدول ۴ و جدول ۵ آمده است. در حالی که جدول ۳ بر میانگین OAs و میانگین نمرات F1 در هر آزمایش تمرکز دارد، جدول ۴ بینش هایی را در مورد OAs در هر متغیر ارائه می دهد و جدول ۵ میانگین نمرات F1 را در هر متغیر ارائه می دهد.

۵٫۲٫۱٫ مشاهدات عمومی

نتایج در جدول ۳ اولین برداشت را از چگونگی تأثیر شرایط تلفات فردی بر عملکرد رویکرد ارائه شده برای بازیابی تصاویری که از نظر معنایی مشابه تصویر پرس و جو هستند، ارائه می دهد. آزمایش‌ها و معیارهای ارزیابی مربوطه از سه گروه تشکیل شده‌اند. گروه اول شامل آزمایش‌هایی است که منحصراً CNN را با بهینه‌سازی یکی از دو عبارت ضرر اصلی آموزش می‌دهند از دست دادن بازیابی تصویر ، گروه دوم شامل آزمایش‌هایی است که بر اساس ترکیب‌های متفاوتی از عبارت‌های فقدان تشکیل دهنده فقدان بازیابی تصویر است ، و گروه سوم همه انواع گروه دوم را با ضرر طبقه بندی ترکیب می کند . جای تعجب نیست که معیارهای به‌دست‌آمده در آزمایش‌های گروه اول نشان می‌دهند که آموزش مبتنی بر شباهت معنایی نتایج بهتری در ارزیابی با تمرکز بر جنبه‌های معنایی به همراه دارد. به طور متوسط، در ۶۱٫۲٪ موارد، اکثریت رای در میان k تصاویر بازیابی شده، برچسب کلاس صحیح را ارائه می دهد اگر برای آموزش استفاده می شود، که ۶٫۲٪ بیشتر از چیزی است که فقط با استفاده از شباهت رنگ می توان به دست آورد ( sem vs. co ). همچنین تفاوت نسبتا زیادی در میانگین نمرات F1 (5.2٪) وجود دارد. نتایج آزمایش‌های گروه دوم نشان می‌دهد که ترکیب شباهت معنایی و رنگی ( sem + co ) همتراز با متغیر مبتنی بر تشابه معنایی است ( sem .) از نظر OA; تفاوت ۰٫۳٪ با توجه به اینکه انحراف استاندارد OA در مرتبه ۰٫۲٪ است معنی دار نیست. تفاوت در میانگین نمرات F1 کمی بیشتر است، اما باز هم از نظر آماری معنی دار نیست. جالب و تا حدودی شگفت‌انگیز، به نظر می‌رسد که گنجاندن از دست دادن شباهت خود تأثیر منفی قابل‌توجهی بر نتایج در این گروه از آزمایش‌ها دارد. در نهایت، گروه سوم آزمایش ها نشان می دهد که به طور متوسط، ترکیبی از از دست دادن بازیابی تصویر با از دست دادن طبقه بندی تصویر از همه گونه های گروه اول و دوم بهتر عمل می کند.
دو نوع بهترین از دست دادن، sem + C هستند که افت بازیابی معنایی تصویر را با از دست دادن طبقه‌بندی تصویر ترکیب می‌کنند، و sem + co + C ترکیبی از تلفات معنایی و بازیابی تصویر رنگی با از دست دادن طبقه‌بندی تصویر. تفاوت بین این دو متغیر (۰٫۲٪ در هر دو OA و میانگین امتیاز F1) ناچیز است. با پیش‌بینی صحیح برچسب‌های کلاس تصاویر آزمایشی در ۶۳٫۹٪ موارد، واریانت sem + C از نوع متناظر خود بدون از دست دادن طبقه‌بندی بهتر عمل می‌کند ( sem) 2.7٪ در OA. از آنجایی که انحراف استاندارد OA ها در محدوده ۰٫۲٪ است، این بهبود قابل توجه در نظر گرفته می شود. میانگین امتیاز F1 حدود ۵٫۶٪ بهبود یافته است که همچنین با توجه به انحراف استاندارد حدود ۰٫۳٪ برای میانگین نمرات F1 در این آزمایش ها، بهبود قابل توجهی است. روند برای نوع نیز با در نظر گرفتن از دست دادن رنگ ( sem + co + C ) در مقایسه با واریانت sem مشابه است . بهبود در مقایسه با واریانت sem + co در OA کمی بزرگتر است زیرا آن نوع OA کمی بدتر از نوع sem داشت و از نظر میانگین امتیاز F1 (4.7٪) کمی کمتر است زیرا sem + co بهتر از sem عمل کرد.در آن متریک جالب توجه است که گنجاندن ضرر طبقه‌بندی تأثیر منفی از دست دادن شباهت خود را کاهش می‌دهد، اگرچه نمی‌تواند آن را به طور کامل جبران کند. از این تجزیه و تحلیل، می‌توان نتیجه گرفت که گنجاندن از دست دادن طبقه‌بندی منجر به بهبود قابل‌توجهی در میانگین عملکرد روش ما برای بازیابی تصاویری می‌شود که از لحاظ معنایی شبیه به تصویر پرس و جو هستند. در OA، بهبود در بهترین سناریو ۲٫۷٪ است. بهبود در میانگین امتیاز F1 بزرگتر است (۵٫۶٪)، که ما به عنوان اولین نشانه در نظر می گیریم که از دست دادن طبقه بندی به ویژه مشکلات مربوط به کلاس های کمتر ارائه شده را کاهش می دهد.
۵٫۲٫۲٫ تجزیه و تحلیل خاص متغیر
تجزیه و تحلیل دقیق تری از OA ها را می توان بر اساس جدول ۴ انجام داد که OA بدست آمده در مجموعه آزمون SILKNOW را در هر متغیر معنایی نشان می دهد. با مقایسه OAهای به‌دست‌آمده از تک تک متغیرها، بدیهی است که کلاس‌های برخی از متغیرها را می‌توان بسیار بهتر از سایر متغیرها پیش‌بینی کرد. با در نظر گرفتن ساختار کلاس چهار متغیر، می توان استنباط کرد که OA های بالاتری را می توان برای متغیرهایی با کلاس های کمتر به دست آورد. مکان متغیر با ۱۷ کلاس کمترین دقت را به دست می‌آورد، در حالی که ماده متغیر تنها با سه کلاس بالاترین دقت را کسب می‌کند (حدود ۷۵ درصد) که حدود ۳۰ درصد بیشتر از مقادیر به‌دست‌آمده برای مکان است. دو نوع sem + Cو sem + co + C منجر به بالاترین OA برای هر چهار متغیر می شود که با مقادیر میانگین در جدول ۳ مطابقت دارد . جدول ۴ نشان می دهد که مواد متغیر – یعنی چیزی که بهترین نتایج برای آن به دست می آید – به سختی تحت تأثیر تغییرات روش شناختی بین آزمایش ها قرار می گیرد. به طور خاص، هیچ تفاوتی در عملکرد بین آزمایش‌های sem ، sem+C و sem+co+C وجود ندارد . همه آنها منجر به OA 75٪ می شوند. برای دو متغیر دیگر، به دلیل گنجاندن ضرر طبقه‌بندی، بهبود بیشتری وجود دارد. در همه موارد، انواع sem و sem + Cدستیابی به مقادیر مشابه OA؛ از جمله از دست دادن طبقه بندی منجر به بهبود OA 3.2٪ – ۳٫۸٪ می شود.
تجزیه و تحلیل میانگین نمرات F1 به ازای هر متغیر در جدول ۵ تأیید می کند که دو آزمایش sem + C و sem + co + C بالاترین معیارهای کیفیت را برای هر چهار متغیر دارند. مقایسه میانگین نمرات F1 به دست آمده در دو آزمایش برتر در جدول ۵ با OA های مربوطه در جدول ۴ ، تفاوت های زیادی در حدود ۱۰٪ ( زمان زمانی ) تا ۳۵٪ ( مواد)) قابل مشاهده است. این نشان‌دهنده مشکلات باقی‌مانده با کلاس‌های کم‌نمایش است. با مقایسه میانگین نمرات F1 کلاس‌های فردی در بهترین آزمایش‌ها، وابستگی آشکاری از عملکرد به تعداد کلاس‌هایی که برای یک متغیر قابل تشخیص است وجود ندارد که بتوان دقت کلی را مشاهده کرد. حتی اگر کمترین امتیاز F1 تا ۲۹٫۱٪ هنوز برای مکان به دست می آید ، با بیشترین تعداد کلاس ها، بالاترین امتیاز تا ۵۵٫۰٪ برای تکنیک متغیر به دست می آید و به دنبال آن بازه زمانی به دست می آید.هر دو دارای شش کلاس هستند. یک دلیل احتمالی می‌تواند این باشد که تکنیک‌های مختلف تولید پارچه‌های ابریشمی ممکن است منجر به بزرگ‌ترین تغییرات بصری در تصاویر شود، و بنابراین ممکن است تشخیص کلاس‌های جداگانه آسان‌تر باشد.این تکنیک با استفاده از نمایش های تصویری آموخته شده توسط CNN آموزش دیده تولید شده است. با مقایسه انواع با بهترین عملکرد ( sem + C و sem + co + C ) با همتایان مربوطه خود، بدون در نظر گرفتن ضرر طبقه‌بندی ( sem و sem + co )، بیشترین تفاوت در میانگین امتیاز F1 به ۸٫۴% می‌رسد ( تکنیک ). برای سایر متغیرها، بهبود بین ۳٫۹٪ ( ماده ) و ۶٫۳٪ متغیر است. مکان متغیر است.، در همه موارد با توجه به انحراف استاندارد میانگین امتیاز F1 در مرتبه ۰٫۵٪ قابل توجه است. بنابراین، تجزیه و تحلیل تأثیر مثبت قابل‌توجه از دست دادن طبقه‌بندی کمکی را بر توانایی روش ما برای بازیابی تصاویر با ویژگی‌های معنایی مشابه با ویژگی‌های تصویر جستجو تأیید می‌کند. از آنجایی که بهبود میانگین نمرات F1 بزرگتر از بهبود در OAs است، ما معتقدیم که این عمدتاً به دلیل مشارکت مثبت در تمایز طبقات کم نمایندگی است، اگرچه برخی مشکلات همچنان باقی هستند، همانطور که با شکاف بین OA و میانگین F1 نشان می دهد. امتیازات
به طور خلاصه، آزمایش‌های اولین سری آزمایشی نشان می‌دهند که ترکیب از دست دادن شباهت معنایی با تلفات مربوط به مفاهیم مشابه دیگر – یعنی شباهت رنگ و خود شباهت – توانایی شبکه را برای تولید توصیف‌گرهایی که می‌توان از آنها استفاده کرد، بهبود نمی‌بخشد. بازیابی تصاویری که دارای ویژگی های معنایی مشابه با تصویر پرس و جو هستند. در مقابل، افزودن یک ضرر طبقه بندی اضافی به طور قابل توجهی هم میانگین نمرات F1 و هم OAs را بهبود می بخشد.

۵٫۳٫ قابلیت انتقال رویکرد: ارزیابی در مجموعه داده ویکی آرت

نتایج سری دوم آزمایش‌ها، بر اساس مجموعه داده‌های WikiArt با استفاده از بهترین مدل مدل از نظر امتیاز F1 مشخص‌شده در بخش قبل و همچنین نوع با استفاده از تمام عبارات ضرر sem + co + slf + C ، قابل یافتن است. در جدول ۶ . جدول هم اطلاعاتی در مورد درصد تصاویر طبقه بندی شده صحیح در هر متغیر (دقت کلی) و هم میانگین امتیازات F1 ویژه متغیر را ارائه می دهد. با مقایسه دو نوع مدل CNN بررسی شده، هر دو امتیاز OAs و F1 برای طبقه‌بندی kNN با توصیف‌گرهای تولید شده توسط مدل sem + C بالاتر هستند . در حالی که میانگین OA در تمام متغیرها برای sem + C ۲٫۸٪ بیشتر از sem + co + slf + C است.، OA های خاص متغیر ۲٫۳٪ برای ژانر ، ۲٫۴٪ برای سبک و ۳٫۸٪ برای هنرمند متفاوت است . رفتار مشابهی را می توان برای نمرات F1 مشاهده کرد: میانگین امتیاز برای sem + C ۳٫۷٪ بیشتر است ، که در آن امتیاز ژانر ۲٫۱٪ بهبود یافته است، امتیاز هنرمند ۴٫۱٪ بهبود یافته است، و سبک ۴٫۲٪ به دست می آید. امتیاز F1 بالاتر
با مقایسه نتایج تجربی در مجموعه داده WikiArt نشان داده شده در جدول ۶ با نتایج موجود در مجموعه داده SILKNOW (به جدول ۳ مراجعه کنید )، تفاوت مدل sem + C بهترین عملکرد را در هر دو مجموعه داده دارد. در حالی که میانگین OA در مجموعه آزمایشی ۶۳٫۹٪ برای مجموعه داده SILKNOW 8.1٪ بیشتر از آنچه در مجموعه داده WikiArt به دست آمده است، امتیازات F1 در مجموعه داده WikiArt بالاتر است. میانگین امتیاز F1 51.1٪ در مجموعه داده WikiArt، ۱۲٫۲٪ بیشتر از امتیاز در مجموعه داده SILKNOW است. این یک رفتار تا حدودی تعجب آور است، زیرا می توان انتظار داشت که امتیازات F1 در مجموعه داده SILKNOW با اعمال فراپارامترهای آموزشی حاصل از تنظیم در مجموعه داده SILKNOW بالاتر باشد. یک دلیل احتمالی می تواند این باشد که کلاس های متغیرهای ویکی آرتتمایز سبک ، ژانر و هنرمند نسبت به متغیرهای SILKNOW آسانتر است.
در مقابل، این واقعیت که بالاترین معیارهای کیفیت برای sem + C به دست آمد ، قابل انتظار بود. طبقه‌بندی k -NN که برای ارزیابی عملکرد بازیابی تصویر استفاده می‌شود، جنبه‌های معنایی توصیف‌گرهای آموخته‌شده را منحصراً در نظر می‌گیرد، و هم از دست دادن شباهت معنایی و هم از دست دادن طبقه‌بندی کمکی، هدف تولید یک خوشه‌بندی معنادار معنایی در فضای توصیف‌گر است. انواع مدل با در نظر گرفتن شباهت رنگ و خود شباهت علاوه بر آن، ممکن است بهترین توصیف کننده ها را برای بازیابی تصویر از دیدگاه کاربر ارائه دهند، زیرا فرض می شود نتایج هم از نظر بصری و هم از نظر معنایی مشابه هستند. با این حال، این جنبه‌های نتایج مستلزم ارزیابی دستی توسط کارشناسان می‌باشند. ۲۱ ] داشت] که علاوه بر ذهنی بودن، از حوصله این نوشتار خارج است. بر این اساس، مزایای حاصل از در نظر گرفتن مفاهیم شباهت بصری در آموزش را نمی توان به طور تجربی با استراتژی ارزیابی ارائه شده منعکس کرد. در هر صورت، ما نتایج را نشان می‌دهد که روش ما واقعاً می‌تواند به دامنه دیگری منتقل شود و این توانایی را دارد که تصاویری با ویژگی‌های مشابه تصاویر پرس و جو را بازیابی کند، حتی اگر کار بیشتر شامل تنظیم فراپارامتر خاص کار باشد. ممکن است لازم باشد که دقت کلی حاصل را به سطحی مشابه با آنچه برای مجموعه داده SILKNOW به دست آمده است، برساند.

۵٫۴٫ ارزیابی کیفی نتایج

علاوه بر نتایج کمی ارائه شده در بخش های قبلی، این بخش حاوی برخی از نتایج کیفی روش بازیابی تصویر پیشنهادی برای هر دو مجموعه داده مورد استفاده در ارزیابی است. نمونه هایی برای تصاویر پرس و جو و همچنین ۱۰ تصویر مشابه که با روش ما از پایگاه داده SILKNOW بازیابی شده اند در شکل ۵ نشان داده شده است. شکل ۶ دو نمونه بر اساس مجموعه داده WikiArt را نشان می دهد. همه این مثال‌ها از مدل مدل sem + C حاصل می‌شوند که از نظر ارزیابی کمی بهترین نمونه است.
اگرچه جنبه های معنایی منحصراً مصنوعات به تصویر کشیده شده در فرآیند آموزش در نظر گرفته شد، به نظر می رسد نتایج از نظر بصری همگن هستند. در نمونه های مجموعه داده SILKNOW ( شکل ۵ )، هر دو رنگ و الگوهای تصویر پرس و جو و تصاویر بازیابی شده عمدتاً مشابه هستند. شکل ۵ الف شامل پارچه هایی با رنگ روشن با طرح راه راه است و شکل ۵ ب پارچه هایی با رنگ های خاکی با الگوی زینتی دانه ریز را نشان می دهد. به طور مشابه، نمونه‌های بازیابی تصویر از مجموعه داده WikiArt عمدتاً دارای رنگ‌هایی هستند که با تصاویر درخواستی مطابقت دارند و محتوای مشابهی را نشان می‌دهند. شکل ۶ الف شامل تصاویری است که رنگ های سبز و قهوه ای بر آنها غالب است و مناظر را به تصویر می کشد. شکل ۶b بیشتر تصاویری از تصاویر طبیعت بی جان را به رنگ قرمز و قهوه ای نشان می دهد. این مثال‌ها همچنین نشان می‌دهد که معناشناسی یک مصنوع به تصویر کشیده شده و ظاهر آن تا حدی مرتبط است.

۶٫ نتیجه گیری و چشم انداز

ما رویکردی برای یادگیری توصیفگر مبتنی بر CNN ارائه کرده‌ایم تا توصیف‌کننده‌های تصویری مناسب برای بازیابی تصویر ابریشم در زمینه حفظ میراث ابریشم اروپایی بدست آوریم. آموزش CNN هم مفاهیم شباهت بصری و هم مفاهیم شباهت معنایی را در نظر می گیرد، جایی که داده های آموزشی را می توان به طور خودکار با بهره برداری از حاشیه نویسی های مربوط به تصاویر در یک مجموعه دیجیتال تولید کرد. در این زمینه، حاشیه نویسی اختصاص داده شده به یک تصویر لازم نیست کامل باشد تا به تصویر اجازه دهد تا به آموزش کمک کند، که با توجه به مجموعه داده های دنیای واقعی از اهمیت ویژه ای برخوردار است. علاوه بر مفاهیم شباهت که امکان تولید داده های آموزشی را بدون برچسب گذاری دستی فراهم می کند، ما ادغام یک از دست دادن طبقه‌بندی چند وظیفه‌ای کمکی را با هدف پشتیبانی از خوشه‌بندی توصیفگرهای آموخته شده با توجه به ویژگی‌های اشیاء نشان‌داده‌شده پیشنهاد کردیم. آزمایش‌های جامع امکان تجزیه و تحلیل تأثیر مؤلفه‌های از دست دادن فردی را بر توانایی توصیفگرها برای انعکاس شباهت یک تصویر پرس و جو و تصاویر بازیابی شده از نظر حاشیه‌نویسی معنایی می‌دهد. در آزمایشات،کطبقه‌بندی NN برای امکان ارزیابی کمی بدون نیاز به مرجعی که نتایج بازیابی بهینه را برای مجموعه‌ای از تصاویر آزمایشی یا وضعیت شباهت شناخته شده برای هر جفت تصویر تعریف می‌کند، انجام شد. ارزیابی بر اساس مجموعه داده ای متشکل از تصاویر پارچه های ابریشمی نشان می دهد که استفاده از افت طبقه بندی کمکی در طول تمرین در واقع عملکرد را تا ۳٫۳ درصد از نظر دقت کلی ویژه متغیر و تا ۸٫۴ درصد از نظر متغیر- بهبود می بخشد. امتیازات خاص F1 مشاهده شد که بیشترین پیشرفت ها برای متغیرهایی با توزیع کلاس نامتعادل به دست آمد. آزمایش‌های بیشتر روی مجموعه داده WikiArt قابلیت انتقال رویکرد ما به سایر مجموعه‌های دیجیتالی را نشان داد، حتی اگر در زمینه جستجو در پایگاه‌های اطلاعاتی ابریشمی توسعه یافته بود.
کار آینده می تواند بر روی تغییرات مجموعه داده برای بررسی بیشتر قابلیت انتقال روش پیشنهادی تمرکز کند یا نکاتی را برای اصلاحات مورد نیاز رویکرد ارائه دهد. از آنجایی که رویکرد یادگیری توصیفگر ارائه شده بر تصاویر با حاشیه نویسی تکیه می کند که کلاس های حداقل یک متغیر معنایی را نشان می دهد، از نظر تئوری می توان آن را برای هر مجموعه داده یا مجموعه دیجیتالی متشکل از برچسب های تصویر و کلاس یک یا چند متغیر اعمال کرد. بنابراین، تحلیل رفتار آن بر روی دیگر مجموعه داده‌های میراث فرهنگی، به عنوان مثال، Art500k [ ۱۷ ] یا OmniArt [ ۴۳ ]، که هر دو متشکل از تصاویری از آثار هنری از قرن‌های مختلف هستند، در سایر مجموعه‌های داده مرتبط با پارچه‌ها، به عنوان مثال، جالب خواهد بود.DeepFashion [ ۶۷]، متشکل از تصاویری که لباس‌ها را نشان می‌دهند، و در نهایت، روی مجموعه‌های داده‌ای که تصاویری را از یک حوزه کاملاً متفاوت نشان می‌دهند، به عنوان مثال، CelebA [ ۶۸ ]، متشکل از تصاویر چهره با ویژگی‌های چهره متفاوت. تا آنجا که به داده های ویکی آرت مربوط می شود، تنظیم هایپرپارامتر اضافی ممکن است نتایج را فراتر از آنچه در این مقاله نشان داده شده است بهبود بخشد.
از نقطه نظر روش شناختی، بررسی تلفات کمکی بیشتر به منظور بهبود رفتار خوشه‌بندی جالب خواهد بود. این می تواند شامل تلفاتی باشد که مستقیماً به خوشه بندی در فضای توصیفگر می پردازد، مانند افت کروی یا از دست دادن مرکز ارائه شده در [ ۳۵ ]. متناوباً، می‌توان تنوعی از از دست دادن خود شباهت پیشنهادی را مورد بررسی قرار داد، به‌عنوان مثال، رویکرد یادگیری بازنمایی در [ ۶۹ ]، که توصیف‌گرها را مجبور می‌کند نسبت به ظواهر مختلف یک شی در یک تصویر تغییر ناپذیر باشند. در مقابل از دست دادن خود شباهت ارائه شده در این مقاله، که مستقیماً توصیفگرهای دو تصویر از یک شیء مشابه را مجبور می‌کند، ر. [ ۶۹] به شبکه اجازه می دهد تا نقشه برداری بین توصیفگرها را بیاموزد. یک امکان دیگر این است که نه تنها محدودیت‌های بیشتر در توصیف‌کننده‌ها با فرمول‌بندی محدودیت‌ها در یک تابع از دست دادن، بلکه برای بهره‌برداری از اطلاعات بیشتر در مورد اشیاء به تصویر کشیده شده با در نظر گرفتن متون توصیفی اختصاص داده شده به تصاویر، باشد. مجموعه داده های ممکن برای توسعه و آزمایش چنین رویکردهایی می تواند از نمودار دانش SILKNOW [ ۱ ]، مانند مجموعه داده در کار حاضر، یا سایر مجموعه داده های چندوجهی با هر دو حاشیه نویسی برای متغیرهای معنایی چندگانه و همچنین متون توصیفی تولید شود. به عنوان مثال، SemArt [ ۷۰ ].
علاوه بر این، یک ارزیابی با تمرکز دیگرنتایج روش بازیابی تصویر ارائه شده جالب خواهد بود. چنین ارزیابی می تواند با هدف به دست آوردن تصوری از شباهت بصری تصاویر بازیابی شده باشد، که احتمالاً نیاز به ارزیابی تعاملی توسط متخصصان حوزه دارد. یکی دیگر از اهداف قابل تصور ارزیابی بیشتر می تواند تجزیه و تحلیل تأثیر تلفات شباهت بر طبقه بندی تصویر باشد. به جای مدیریت از دست دادن طبقه بندی به عنوان یک ضرر کمکی، یک یا چند تلفات شباهت را می توان با توجه به توانایی آنها در بهبود طبقه بندی تصویر تحلیل کرد، جایی که تلفات شباهت به عنوان تلفات کمکی برای طبقه بندی تصویر عمل می کند. یک انگیزه قوی برای چنین آزمایش‌هایی مشاهده ما این است که ترکیب یادگیری توصیفگر و طبقه‌بندی تصویر در طول آموزش، توانایی توصیفگرهای آموخته‌شده را برای نشان دادن ویژگی‌های معنایی، عمدتاً متغیرهایی با کلاس‌های زیاد و ساختارهای کلاس نامتعادل در زمان آزمون، بهبود می‌بخشد. در این زمینه، مقایسه استفاده از تلفات شباهت کمکی با سایر استراتژی‌هایی که هدفشان حل مشکلات عدم تعادل طبقاتی در طبقه‌بندی تصویر است، جالب خواهد بود.

منابع

  1. آلبا پاگان، ای. گایتان سالواتلا، ام. Pitarch، MD; لئون مونوز، آ. مویا تولدو، م. مارین رویز، جی. ویتلا، م. لو سیسرو، جی. روتنشتاینر، اف. کلرمونت، دی. و همکاران از ابریشم تا فناوری‌های دیجیتال: دروازه‌ای به فرصت‌های جدید برای صنایع خلاق، صنایع دستی سنتی و طراحان. مورد SILKNOW. Sustainability ۲۰۲۰ , ۱۲ , ۸۲۷۹٫ [ Google Scholar ] [ CrossRef ]
  2. Bentley, J. درختان جستجوی دوتایی چند بعدی که برای جستجوی انجمنی استفاده می شوند. اشتراک. ACM ۱۹۷۵ ، ۱۸ ، ۵۰۹-۵۱۷٫ [ Google Scholar ] [ CrossRef ]
  3. جین، AK; Vailaya، A. بازیابی تصویر با استفاده از رنگ و شکل. تشخیص الگو ۱۹۹۶ ، ۲۹ ، ۱۲۳۳-۱۲۴۴٫ [ Google Scholar ] [ CrossRef ]
  4. گودیوادا، وی. Raghavan, VV سیستم های بازیابی تصویر مبتنی بر محتوا. کامپیوتر ۱۹۹۵ ، ۲۸ ، ۱۸-۲۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. یانگ، HC; لی، CH کشف معناشناسی تصویر از صفحات وب برای بازیابی تصویر مبتنی بر معنایی با استفاده از نقشه های خودسازماندهی. سیستم خبره Appl. ۲۰۰۸ ، ۳۴ ، ۲۶۶-۲۷۹٫ [ Google Scholar ] [ CrossRef ]
  6. LeCun، Y.; بوزر، بی. دنکر، جی اس؛ هندرسون، دی. هوارد، RE; هابارد، دبلیو. Jackel، LD Backpropagation برای تشخیص کد پستی دست‌نویس اعمال می‌شود. محاسبات عصبی ۱۹۸۹ ، ۱ ، ۵۴۱-۵۵۱٫ [ Google Scholar ] [ CrossRef ]
  7. کریژفسکی، آ. سوتسکور، آی. هینتون، GE ImageNet طبقه بندی با شبکه های عصبی کانولوشن عمیق. Adv. عصبی Inf. روند. سیستم ۲۰۱۲ ، ۲۵ ، ۱۰۹۷-۱۱۰۵٫ [ Google Scholar ] [ CrossRef ]
  8. چوپرا، اس. هادسل، آر. LeCun، Y. یادگیری معیار تشابه به صورت متمایز، با تأیید صحت کاربرد به چهره. در مجموعه مقالات کنفرانس IEEE Computer Society در سال ۲۰۰۵ در مورد دید رایانه و تشخیص الگو (CVPR’05)، سن دیگو، CA، ایالات متحده آمریکا، ۲۰-۲۵ ژوئن ۲۰۰۵; جلد ۱، ص ۵۳۹–۵۴۶٫ [ Google Scholar ] [ CrossRef ]
  9. وانگ، جی. آهنگ، ی. لئونگ، تی. روزنبرگ، سی. وانگ، جی. فیلبین، جی. چن، بی. Wu, Y. یادگیری شباهت تصویر ریز دانه با رتبه بندی عمیق. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، کلمبوس، OH، ایالات متحده آمریکا، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ صص ۱۳۸۶–۱۳۹۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. چی، ی. آهنگ، YZ; ژانگ، اچ. لیو، جی. بازیابی تصویر مبتنی بر طرح از طریق شبکه عصبی کانولوشنال سیامی. در مجموعه مقالات کنفرانس بین المللی IEEE 2016 در مورد پردازش تصویر (ICIP)، فینیکس، AZ، ​​ایالات متحده آمریکا، ۲۵ تا ۲۸ سپتامبر ۲۰۱۶٫ ص ۲۴۶۰–۲۴۶۴٫ [ Google Scholar ] [ CrossRef ]
  11. کائو، ی. لانگ، م. لیو، بی. Wang, J. هش کردن عمیق برای بازیابی فضای hamming. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸؛ ص ۱۲۲۹–۱۲۳۷٫ [ Google Scholar ] [ CrossRef ]
  12. ژائو، اف. هوانگ، ی. وانگ، ال. Tan, T. درهم‌سازی مبتنی بر رتبه‌بندی معنایی عمیق برای بازیابی تصویر چند برچسبی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، ۷ تا ۱۲ ژوئن ۲۰۱۵٫ صفحات ۱۵۵۶-۱۵۶۴٫ [ Google Scholar ] [ CrossRef ]
  13. وو، دی. لین، ز. لی، بی. بله، م. Wang, W. Deep تحت نظارت هش برای چند برچسب و بازیابی تصویر در مقیاس بزرگ. در مجموعه مقالات ACM 2017 در کنفرانس بین المللی بازیابی چند رسانه ای (ICMR’17)، بخارست، رومانی، ۶ تا ۹ ژوئن ۲۰۱۷؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۷؛ صص ۱۵۰-۱۵۸٫ [ Google Scholar ] [ CrossRef ]
  14. ژانگ، ز. زو، س. لین، ی. چن، ال. Wang, S. هش عمیق را با شباهت زوجی نرم برای بازیابی تصویر چند برچسبی بهبود بخشید. IEEE Trans. چندتایی. ۲۰۱۹ ، ۲۲ ، ۵۴۰-۵۵۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  15. گوردو، آ. لارلوس، دی. فراتر از بازیابی تصویر در سطح نمونه: استفاده از شرح‌ها برای یادگیری یک نمایش تصویری جهانی برای بازیابی معنایی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۷؛ صص ۵۲۷۲-۵۲۸۱٫ [ Google Scholar ] [ CrossRef ]
  16. کیم، اس. سئو، ام. لاپتف، آی. چو، م. کواک، اس. یادگیری متریک عمیق فراتر از نظارت باینری. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ صص ۲۲۸۳-۲۲۹۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  17. مائو، اچ. چونگ، ام. او، جی دیپارت: یادگیری بازنمایی مشترک هنرهای تجسمی. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی ACM در چند رسانه ای، Mountain View، CA، ایالات متحده آمریکا، ۲۳-۲۷ اکتبر ۲۰۱۷؛ صص ۱۱۸۳–۱۱۹۱٫ [ Google Scholar ] [ CrossRef ]
  18. استفانینی، م. کورنیا، م. بارالدی، ال. کورسینی، ام. Cucchiara, R. Artpedia: مجموعه داده بصری- معنایی جدید با جملات بصری و متنی در حوزه هنری. در کنفرانس بین المللی تجزیه و تحلیل و پردازش تصویر (ICIAP) ؛ Springer: Cham، سوئیس، ۲۰۱۹; صص ۷۲۹-۷۴۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  19. گارسیا، ن. رنوست، بی. ناکاشیما، Y. ContextNet: بازنمایی و کاوش برای طبقه بندی نقاشی و بازیابی در زمینه. بین المللی J. Multimed. Inf. Retr. ۲۰۲۰ ، ۹ ، ۱۷-۳۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. کلرمونت، دی. دوروزینسکی، م. ویتیچ، دی. Rottensteiner, F. ارزیابی شباهت معنایی تصاویر پارچه های ابریشمی با استفاده از شبکه عصبی کانولوشن. در ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences ; Copernicus GmbH: گوتینگن، آلمان، ۲۰۲۰؛ جلد V-2، ص ۶۴۱-۶۴۸٫ [ Google Scholar ] [ CrossRef ]
  21. شلیدر، تی. ترونسی، آر. ارهارت، تی. دوروزینسکی، م. روتنشتاینر، اف. لوزانو، جی اس؛ Lo Cicero, G. جستجوی پارچه‌های ابریشمی با استفاده از تصاویر با استفاده از نمودار دانش و قوانین خبره دامنه. در مجموعه مقالات سومین کارگاه آموزشی در مورد ساختار و درک محتوای میراث چندرسانه ای (SUMAC ’21)، انجمن ماشین های محاسباتی (ACM)، چنگدو، چین، ۲۰ اکتبر ۲۰۲۱؛ ص ۴۱-۴۹٫ [ Google Scholar ] [ CrossRef ]
  22. لی، جی. Ng، WW; تیان، ایکس. کووانگ، اس. وانگ، اچ. هش نظارت شده با رتبه بندی چند عمقی برای بازیابی کارآمد تصویر. بین المللی جی. ماخ. فرا گرفتن. سایبرن. ۲۰۲۰ ، ۱۱ ، ۸۸۳-۸۹۷٫ [ Google Scholar ] [ CrossRef ]
  23. شن، سی. ژو، سی. جین، ز. چو، دبلیو. جیانگ، آر. چن، ی. تعبیه ویژگی یادگیری Hua، XS با فعال‌سازی‌های عصبی قوی برای بازیابی دقیق. در مجموعه مقالات کارگاه های موضوعی ACM Multimedia، Mountain View، CA، ایالات متحده، ۲۳-۲۷ اکتبر ۲۰۱۷؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۷؛ صص ۴۲۴-۴۳۲٫ [ Google Scholar ] [ CrossRef ]
  24. جون، اچ. کو، بی. کیم، ی. کیم، آی. کیم، جی. ترکیبی از چندین توصیف کننده جهانی برای بازیابی تصویر. arXiv ۲۰۱۹ ، arXiv:1903.10663. [ Google Scholar ]
  25. شروف، اف. کالنیچنکو، دی. فیلبین، جی. فیس نت: تعبیه یکپارچه برای تشخیص چهره و خوشه بندی. در مجموعه مقالات کنفرانس IEEE 2015 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، ۷ تا ۱۲ ژوئن ۲۰۱۵؛ صص ۸۱۵-۸۲۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. ژو، XS; Huang, TS بازخورد مربوط به بازیابی تصویر: یک بررسی جامع. چندتایی. سیستم ۲۰۰۳ ، ۸ ، ۵۳۶-۵۴۴٫ [ Google Scholar ] [ CrossRef ]
  27. چن، ز. وینین، ال. ژانگ، اف. لی، ام. ژانگ، اچ. وب کاوی برای بازیابی تصویر وب. مربا. Soc. Inf. علمی تکنولوژی ۲۰۰۱ ، ۵۲ ، ۸۳۱-۸۳۹٫ [ Google Scholar ] [ CrossRef ]
  28. شریف رضویان، ع. عزیزپور، ح. سالیوان، جی. Carlsson، S. CNN ویژگی‌های خارج از قفسه: یک خط پایه شگفت‌انگیز برای شناسایی. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو (CVPR)، کلمبوس، OH، ایالات متحده، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ صص ۵۱۲-۵۱۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  29. بروملی، جی. بنتز، جی دبلیو. بوتو، ال. گیون، آی. LeCun، Y.; مور، سی. ساکینگر، ای. شاه، آر. تأیید امضا با استفاده از شبکه عصبی تأخیر زمانی «سیامی». بین المللی ج. تشخیص الگو. آرتیف. هوشمند ۱۹۹۳ ، ۷ ، ۶۶۹-۶۸۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. دوتا، ا. Akata، Z. سازگاری چرخه جفت شده از نظر معنایی برای بازیابی تصویر مبتنی بر طرح بدون شات. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ ص ۵۰۸۴–۵۰۹۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  31. دنگ، ی. تانگ، اف. دونگ، دبلیو. مک.؛ هوانگ، اف. دوسن، او. Xu, C. کاوش در بازنمایی نقاشی های هنری. IEEE Trans. چندتایی. ۲۰۲۱ ، ۲۳ ، ۲۷۹۴-۲۸۰۵٫ [ Google Scholar ] [ CrossRef ]
  32. افتیمیو، ع. رودیناک، اس. کاکوویچ، م. نگران، م. Wijnberg، N. Graph Neural Networks for Knowledge Enhanced Visual Representation of Paintings. در مجموعه مقالات بیست و نهمین کنفرانس بین المللی ACM در چند رسانه ای، رویداد مجازی، چین، ۲۰ تا ۲۴ اکتبر ۲۰۲۱؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۲۱؛ صص ۳۷۱۰–۳۷۱۹٫ [ Google Scholar ] [ CrossRef ]
  33. همراس، س. بوچهام، بی. Molina-Cabello، MA; بنیتز-روشل، آر. Lopez-Rubio، E. بازیابی تصویر مبتنی بر محتوا توسط گروه های طبقه بندی کننده اشیاء یادگیری عمیق. یکپارچه سازی Comput.-Aided Eng. ۲۰۲۰ ، ۲۷ ، ۳۱۷-۳۳۱٫ [ Google Scholar ] [ CrossRef ]
  34. لیو، اف. وانگ، بی. Zhang, Q. یادگیری عمیق پیش طبقه بندی برای بازیابی سریع تصویر. در مجموعه مقالات کنفرانس بین المللی الگوریتم ها، محاسبات و هوش مصنوعی ۲۰۱۸؛ انجمن ماشین‌های محاسباتی، سانیا، چین، ۲۱ تا ۲۳ دسامبر ۲۰۱۸؛ صص ۱-۵٫ [ Google Scholar ] [ CrossRef ]
  35. لین، اچ. فو، ی. لو، پی. گونگ، اس. Xue، X. جیانگ، YG Tc-net برای isbir: شبکه طبقه بندی سه گانه برای بازیابی تصویر مبتنی بر طرح در سطح نمونه. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی ACM در چند رسانه ای، نیس، فرانسه، ۲ تا ۲۵ اکتبر ۲۰۱۹؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۹؛ صفحات ۱۶۷۶-۱۶۸۴٫ [ Google Scholar ] [ CrossRef ]
  36. هوانگ، جی. فریس، RS; چن، کیو. Yan, S. بازیابی تصویر متقاطع دامنه با یک شبکه رتبه‌بندی دوگانه آگاه. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، ۷ تا ۱۳ دسامبر ۲۰۱۵٫ صص ۱۰۶۲–۱۰۷۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. برز، بی. Denzler, J. تعبیه‌های تصویر مبتنی بر سلسله مراتب برای بازیابی تصویر معنایی. در مجموعه مقالات کنفرانس زمستانی IEEE 2019 در مورد کاربردهای بینایی کامپیوتری (WACV)، Waikoloa، HI، ایالات متحده آمریکا، ۷ تا ۱۱ ژانویه ۲۰۱۹؛ صص ۶۳۸-۶۴۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  38. Fellbaum, C. WordNet: کتابخانه آنلاین Wiley. دایره Appl. زبانشناس. ۱۹۹۸ , ۷ . [ Google Scholar ] [ CrossRef ]
  39. منسینک، تی. ون گمرت، جی. چالش موزه ریجکس: شناخت بصری موزه محور. در مجموعه مقالات کنفرانس بین المللی بازیابی چند رسانه ای (ICMR’14)، گلاسکو، انگلستان، ۱-۴ آوریل ۲۰۱۴٫ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۴٫ ص ۴۵۱-۴۵۴٫ [ Google Scholar ] [ CrossRef ]
  40. قهوهای مایل به زرد، WR; چان، CS; آگویر، HE; Tanaka، K. Ceci n’est pas une pipe: یک شبکه پیچیده عمیق برای طبقه بندی نقاشی های هنری زیبا. در مجموعه مقالات کنفرانس بین المللی IEEE 2016 در مورد پردازش تصویر (ICIP)، فینیکس، AZ، ​​ایالات متحده آمریکا، ۲۵ تا ۲۸ سپتامبر ۲۰۱۶٫ صص ۳۷۰۳–۳۷۰۷٫ [ Google Scholar ] [ CrossRef ]
  41. سور، دی. Blaine, E. آموزش انتقال تصویر متقابل برای طبقه بندی هنر ; گزارش فنی CS 231A و CS 231N. دانشگاه استنفورد: استانفورد، کالیفرنیا، ایالات متحده آمریکا، ۲۰۱۷٫ [ Google Scholar ]
  42. بلحی، ع. بوراس، ا. فوفو، اس. به سوی چارچوب طبقه بندی چند وظیفه ای سلسله مراتبی برای میراث فرهنگی. در مجموعه مقالات پانزدهمین کنفرانس بین‌المللی سیستم‌ها و برنامه‌های رایانه‌ای (AICCSA) IEEE/ACS 2018، عقبه، اردن، ۲۸ اکتبر تا ۱ نوامبر ۲۰۱۸؛ صص ۱-۷٫ [ Google Scholar ] [ CrossRef ]
  43. استرزوسکی، جی. Worring، M. Omniart: یادگیری عمیق چند وظیفه ای برای تجزیه و تحلیل داده های هنری. arXiv ۲۰۱۷ , arXiv:1708.00684. [ Google Scholar ]
  44. بیانکو، اس. مازینی، دی. ناپلتانو، پی. اسکتینی، آر. طبقه بندی نقاشی چند وظیفه ای توسط شبکه عصبی چند شاخه ای عمیق. سیستم خبره Appl. ۲۰۱۹ ، ۱۳۵ ، ۹۰-۱۰۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  45. کاستلانو، جی. Vessio، G. رویکردهای یادگیری عمیق برای استخراج و تشخیص الگو در نقاشی ها و طراحی ها: یک مرور کلی. محاسبات عصبی Appl. ۲۰۲۱ ، ۳۳ ، ۱۲۲۶۳-۱۲۲۸۲٫ [ Google Scholar ] [ CrossRef ]
  46. استالمن، ک. وگنر، دی. دوئر، ام. هیل، HJ; فریسن، ن. بازیابی مبتنی بر معنایی اشیاء چند رسانه ای میراث فرهنگی. بین المللی ج. سمنت. محاسبه کنید. ۲۰۱۲ ، ۶ ، ۳۱۵-۳۲۷٫ [ Google Scholar ] [ CrossRef ]
  47. کاستلانو، جی. للا، ای. Vessio، G. بازیابی پیوند بصری و کشف دانش در مجموعه داده‌های نقاشی. چندتایی. ابزارهای کاربردی ۲۰۲۱ ، ۸۰ ، ۶۵۹۹-۶۶۱۶٫ [ Google Scholar ] [ CrossRef ]
  48. جین، ن. بارتز، سی. برودو، تی. متزنتین، ای. اتهولت، جی. کرستل، آر. تحلیل معنایی داده های میراث فرهنگی: همسویی نقاشی ها و توصیف ها در مجموعه های هنری- تاریخی. در کنفرانس بین المللی تشخیص الگو (ICPR) ؛ Springer: برلین/هایدلبرگ، آلمان، ۲۰۲۱؛ صص ۵۱۷-۵۳۰٫ [ Google Scholar ] [ CrossRef ]
  49. گروور، ا. Leskovec, J. node2vec: یادگیری ویژگی های مقیاس پذیر برای شبکه ها. در مجموعه مقالات بیست و دومین کنفرانس بین المللی ACM SIGKDD در زمینه کشف دانش و داده کاوی، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، ۱۳ تا ۱۷ اوت ۲۰۱۶؛ صص ۸۵۵-۸۶۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. چن، YW; سوبو، اس. بازیابی تصویر پارچه لباس مبتنی بر Huang، X. KANSEI. در کارگاه بین المللی تصویربرداری رنگی محاسباتی ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۹; صص ۷۱-۸۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  51. کوربییر، سی. بن یونس، ح. رامه، ا. Ollion، C. استفاده از داده های حاشیه نویسی ضعیف برای بازیابی تصویر مد و پیش بینی برچسب. در مجموعه مقالات کنفرانس بین المللی IEEE در کارگاه های آموزشی بینایی کامپیوتری (ICCV)، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صص ۲۲۶۸-۲۲۷۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  52. دی اینوسنت، آ. گارگ، ن. ژانگ، ی. بذانی، ل. Donoser، M. Localized Triplet Loss for Fine-Grained Fashion Image Retrieval. در مجموعه مقالات کنفرانس IEEE/CVF در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو (CVPR)، نشویل، TN، ایالات متحده، ۱۹ تا ۲۵ ژوئن ۲۰۲۱؛ صص ۳۹۱۰–۳۹۱۵٫ [ Google Scholar ] [ CrossRef ]
  53. دنگ، دی. وانگ، آر. وو، اچ. او، اچ. لی، کیو. Luo, X. یادگیری مدل‌های شباهت عمیق با رتبه‌بندی فوکوس برای بازیابی تصویر پارچه. تصویر Vis. محاسبه کنید. ۲۰۱۸ ، ۷۰ ، ۱۱-۲۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  54. شیانگ، جی. ژانگ، ن. پان، آر. سیستم بازیابی تصویر Gao، W. Fabric با استفاده از جستجوی سلسله مراتبی بر اساس شبکه عصبی کانولوشنال عمیق. دسترسی IEEE ۲۰۱۹ ، ۷ ، ۳۵۴۰۵–۳۵۴۱۷٫ [ Google Scholar ] [ CrossRef ]
  55. دوروزینسکی، م. کلرمونت، دی. Rottensteiner, F. یادگیری عمیق چند وظیفه ای با نمونه های آموزشی ناقص برای پیش بینی مبتنی بر تصویر متغیرهای توصیف کننده پارچه های ابریشمی. در ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences ; Copernicus GmbH: گوتینگن، آلمان، ۲۰۱۹؛ جلد IV-2/W6، صفحات ۴۷-۵۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  56. او، ک. ژانگ، ایکس. رن، اس. Sun, J. نگاشت هویت در شبکه های باقیمانده عمیق. در Computer Vision-ECCV 2016 ; Springer: Cham, Switzerland, 2016; صص ۶۳۰-۶۴۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  57. نیر، وی. واحدهای خطی Hinton، GE Rectified ماشین‌های بولتزمن محدود را بهبود می‌بخشند. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی یادگیری ماشین (ICML-10)، حیفا، اسرائیل، ۲۱ تا ۲۴ ژوئن ۲۰۱۰٫ ص ۸۰۷-۸۱۴٫ [ Google Scholar ]
  58. سریواستاوا، ن. هینتون، جی. کریژفسکی، آ. سوتسکور، آی. Salakhutdinov, R. Dropout: یک راه ساده برای جلوگیری از برازش بیش از حد شبکه های عصبی. جی. ماخ. فرا گرفتن. Res. ۲۰۱۴ ، ۱۵ ، ۱۹۲۹-۱۹۵۸٫ [ Google Scholar ]
  59. Bishop, CM Pattern Recognition and Machine Learning , ۱st ed.; Springer: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۰۶٫ [ Google Scholar ]
  60. روساکوفسکی، او. دنگ، ج. سو، اچ. کراوز، جی. ستایش، س. ما، س. هوانگ، ز. کارپاتی، ا. خسلا، ع. برنشتاین، ام. و همکاران چالش تشخیص بصری در مقیاس بزرگ ImageNet. بین المللی جی. کامپیوتر. Vis. ۲۰۱۵ ، ۱۱۵ ، ۲۱۱-۲۵۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  61. او، ک. ژانگ، ایکس. رن، اس. Sun, J. عمیق در یکسو کننده ها: پیشی گرفتن از عملکرد سطح انسانی در طبقه بندی شبکه تصویری. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، ۷ تا ۱۳ دسامبر ۲۰۱۵٫ ص ۱۰۲۶-۱۰۳۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  62. یوسینسکی، جی. کلون، جی. بنژیو، ی. لیپسون، اچ. ویژگی ها در شبکه های عصبی عمیق چقدر قابل انتقال هستند؟ arXiv ۲۰۱۴ ، arXiv:1411.1792. [ Google Scholar ]
  63. Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. arXiv ۲۰۱۵ ، arXiv:1412.6980. [ Google Scholar ]
  64. لین، TY; گویال، پ. گیرشیک، آر. او، ک. Dollár, P. از دست دادن کانونی برای تشخیص اجسام متراکم. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صفحات ۲۹۹۹-۳۰۰۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  65. لیو، دبلیو. چن، ال. Chen, Y. طبقه‌بندی سنی با استفاده از شبکه‌های عصبی کانولوشنال با از دست دادن کانونی چند طبقه. IOP Conf. سر. ماتر علمی مهندس ۲۰۱۸ , ۴۲۸ , ۰۱۲۰۴۳٫ [ Google Scholar ] [ CrossRef ]
  66. IMATEX. مرکز اسناد و موزه Tèxtil، Textilteca آنلاین CMDT. ۲۰۱۸٫ در دسترس آنلاین: http://imatex.cdmt.cat (در ۱۴ فوریه ۲۰۱۹ قابل دسترسی است).
  67. لیو، ز. لو، پی. کیو، اس. وانگ، ایکس. Tang, X. Deepfashion: قدرت تشخیص و بازیابی لباس های قوی با حاشیه نویسی های غنی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ صص ۱۰۹۶-۱۱۰۴٫ [ Google Scholar ] [ CrossRef ]
  68. لیو، ز. لو، پی. وانگ، ایکس. تانگ، ایکس. ویژگی‌های چهره یادگیری عمیق در طبیعت. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، ۷ تا ۱۳ دسامبر ۲۰۱۵٫ صص ۳۷۳۰–۳۷۳۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  69. چن، ایکس. او، ک. کاوش در یادگیری بازنمایی ساده سیامی. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو (CVPR)، نشویل، TN، ایالات متحده، ۲۰-۲۵ ژوئن ۲۰۲۱؛ صفحات ۱۵۷۵۰–۱۵۷۵۸٫ [ Google Scholar ] [ CrossRef ]
  70. گارسیا، ن. Vogiatzis، G. چگونه نقاشی ها را بخوانیم: درک هنری معنایی با بازیابی چندوجهی. در کارگاه های آموزشی Computer Vision-ECCV 2018 ; انتشارات بین المللی Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۸; صص ۶۷۶-۶۹۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  71. نمودار دانش SILKNOW. https://doi.org/10.5281/zenodo.5743090 (دسترسی در ۲۹ نوامبر ۲۰۲۱).
شکل ۱٫ معماری CNN. ورودی یک تصویر RGB x با ابعاد ۲۲۴ × ۲۲۴ پیکسل است که به ستون فقرات ResNet152 [ ۵۶ ] ارسال می‌شود و منجر به یک بردار ویژگی ۲۰۴۸ بعدی می‌شود. . پس از یک فعال سازی ReLU و یک لایه حذفی، بردار ویژگی به نمایش داده می شود لایه های کاملا متصل مشترک fc متشکل از هر گره و بردار ویژگی ارائه می شود . سر شبکه از دو شاخه تشکیل شده است: یک سر طبقه بندی و یک هد بازیابی تصویر. هد بازیابی تصویر بردارها را عادی می کند به واحد طول، منجر به توصیفگرها می شود برای بازیابی تصویر؛ هم در آموزش و هم در تست استفاده می شود. سر طبقه بندی شامل لایه های کاملا متصل بیشتر – با ReLU که هر کدام شامل گره ها آنها نمایش مشترک را ترسیم می کنند به نمایش های خاص کار و لایه های طبقه بندی m – برای طبقه بندی چند وظیفه ای با تعداد گره هایی که برای متغیر m کلاس وجود دارد. فعال سازی های سافت مکس را می توان به عنوان احتمالات پسین تفسیر کرد برای کلاس k از متغیر m . خط شکسته نشان می دهد که سر طبقه بندی فقط در زمان آموزش وجود دارد.
شکل ۲٫ نمونه هایی برای تصاویر در مجموعه داده SILKNOW از مجموعه IMATEX. این پنج تصویر دارای برچسب‌های کلاس زیر هستند (از چپ به راست ): بازه زمانی : ناشناخته ، قرن ۱۸ ، ناشناخته ، قرن ۱۹ ، ناشناخته ؛ مکان : IR , مجهول , ناشناخته , FR , مجهول ; مواد : نخ فلزی ، الیاف حیوانی ، الیاف گیاهی ، الیاف حیوانی ، گیاهی ؛ تکنیک : مجهول , دمشک , مجهول , مجهول , گلدوزی . © Museu Tèxtil de Terrassa/Quico Ortega [ ۶۶ ].
شکل ۳٫ ساختارهای کلاس و توزیع کلاس مجموعه داده WikiArt برای سه متغیر ژانر ( a )، هنرمند ( b ) و سبک ( c ). نوارهای آبی تعداد تصاویر مجموعه آموزشی، نوارهای قرمز مربوط به مجموعه اعتبارسنجی و نوارهای سبز مربوط به مجموعه آزمایشی است.
شکل ۴٫ نمونه هایی برای تصاویر در مجموعه داده WikiArt. این پنج تصویر دارای برچسب‌های کلاس زیر هستند (از چپ به راست ): هنرمند : رامبراند ، ونسان ون گوگ ، پیر آگوست رنوار ، پابلو پیکاسو ، سالوادور دالی . ژانر : پرتره , ژانر نقاشی , منظره , طبیعت بی جان , تصویرسازی ; سبک : باروک ، رئالیسم ، امپرسیونیسم ، کوبیسم ،اکسپرسیونیسم انتزاعی .
شکل ۵٫ نتایج کیفی آزمایش sem + C انجام شده بر روی مجموعه داده SILKNOW، که در آن ( a ) و ( b ) هر کدام یک نتیجه را نشان می دهند. ستون اول تصویر پرس و جو را نشان می دهد و ستون دوم ده تصویر مشابه را مطابق روش ما به ترتیب صعودی بر اساس فاصله توصیفگر از بالا سمت چپ به پایین سمت راست فهرست می کند. © Museu Tèxtil de Terrassa/Quico Ortega [ ۶۶ ].
شکل ۶٫ نتایج کیفی آزمایش sem + C انجام شده بر روی مجموعه داده WikiArt، که در آن ( a ) و ( b ) هر کدام یک نتیجه را نشان می دهند. ستون اول تصویر پرس و جو را نشان می دهد و ستون دوم ده تصویر مشابه بازیابی شده را به ترتیب صعودی بر اساس فاصله توصیفگر از بالا سمت چپ به پایین سمت راست فهرست می کند.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما