۱٫ مقدمه
حفظ میراث فرهنگی ما برای نسل های آینده و در دسترس قرار دادن آن برای تاریخ نگاران و عموم مردم یک وظیفه مهم است. در این زمینه، یک استراتژی کلیدی، دیجیتالی کردن مجموعههای اشیاء تاریخی در قالب پایگاههای اطلاعاتی قابل جستجو با حاشیهنویسی استاندارد شده و احتمالاً تصاویر است که پیش نیازی برای دسترسی سریع و آسان به دانش مربوطه توسط متخصص و غیر متخصص است. کاربران متخصص این هدف پروژه اتحادیه اروپا H2020 SILKNOW بود ( http://silknow.eu/، بازدید در ۳۰ نوامبر ۲۰۲۱) تا یک گام در این راستا برای حفظ میراث فرهنگی اروپا مرتبط با ابریشم برداشته شود. ابریشم برای صدها سال نقش مهمی در بسیاری از زمینه های مختلف ایفا کرده است و هنوز هم این نقش را در حال حاضر دارد. به عنوان مثال، پیشرفتهای فنی مانند ماشین بافندگی ژاکارد را ایجاد کرده است که مفهوم کارتهای پانچ شده برای ذخیره اطلاعات را معرفی کرد. همچنین از طریق صنایع نساجی و خلاقانه و جنبه کارکردی به عنوان جزئی از لباس و مبلمان، تأثیر اقتصادی دارد و از منظر فرهنگی و نمادین از طریق شکلدهی فردیت و هویت مرتبط است. .]. برای دسترسی به دانش مربوط به ابریشم از گذشته برای نسلهای آینده، یک نمودار دانش مربوط به پارچههای ابریشمی با جمعآوری مجموعههای آنلاین موجود و تبدیل متا اطلاعات به یک قالب استاندارد ساخته شد [ ۱ ]. مقاله حاضر با نیاز به دسترسی آسان به این نمودار دانش انگیزه دارد و یک روش مبتنی بر یادگیری عمیق جدید برای بازیابی تصویر ارائه میکند که میتواند برای جستجوی رکوردها در پایگاه داده بر اساس تصاویر استفاده شود.
برای بازیابی تصویر، یک بردار ویژگی ( توصیفگر ) برای هر تصویر موجود در پایگاه داده از پیش محاسبه شده است. به محض اینکه کاربر یک تصویر پرس و جو ارائه کرد، یک توصیفگر پرس و جو مربوطه مشتق می شود که به عنوان نمایه ای برای پایگاه داده عمل می کند: تصاویری که بیشترین شباهت را به تصویر پرس و جو دارند، با یافتن مشابه ترین توصیفگرهای تصاویر پایگاه داده، معمولاً با استفاده از آنها شناسایی می شوند. فاصله اقلیدسی به عنوان معیار تشابه برای سرعت بخشیدن به جستجوی نزدیکترین همسایگان، توصیفگرهای تصاویر از پایگاه داده در یک شاخص فضایی، معمولاً یک درخت kd [ ۲ ] ذخیره می شوند. چندین رویکرد برای بازیابی تصویر بر توصیفگرهای تصویر دست ساز متمرکز شده اند. به عنوان مثال، رمزگذاری ویژگی های بصری تصاویر [ ۳ ,۴ ] یا بهره برداری از متن مرتبط با تصاویر [ ۵ ]. رویکردهای جدیدتر از روشهای مبتنی بر شبکههای عصبی کانولوشنال (CNN) [ ۶ ، ۷ ] برای یادگیری توصیفگرهایی استفاده میکنند که شباهت جفتهای تصویر را منعکس میکنند. فرآیند آموزش چنین CNN معمولاً مستلزم نمونههای آموزشی متشکل از جفت تصویر با وضعیت شباهت شناخته شده است. به عنوان مثال، باید مشخص شود که آیا دو تصویر یک جفت تمرین مشابه هستند یا نامشابه [ ۸ ]]. در فرآیند آموزش، شبکه یاد می گیرد که توصیف کننده هایی با فواصل اقلیدسی کوچک برای جفت های تصویر مشابه و توصیفگرهایی با فواصل اقلیدسی بزرگ برای موارد غیرمشابه تولید کند.
در این زمینه، مشکل عمده تولید نمونه های آموزشی است. اغلب، آنها با برچسب گذاری دستی [ ۹ ، ۱۰ ] تولید می شوند، اما این یک کار خسته کننده و وقت گیر است. در زمینه بازیابی تصویر برای جستجو در پایگاه دادههای آثار هنری، این عیب را نیز دارد که بهویژه اگر مبتنی بر جنبههای بصری صرف باشد، بسیار ذهنی است. برای حل این مشکل، تولید نمونه های آموزشی به صورت خودکار با تعریف شباهت بر اساس اطلاعات اضافی که به تصاویر اختصاص داده می شود، مطلوب است. به عنوان مثال، برچسبهای کلاس که نوع شی تصویر شده را توصیف میکنند [ ۱۱ ، ۱۲ ، ۱۳ ، ۱۴ ] یا متون توصیفی [ ۱۵ ، ۱۶ ]]. این استراتژی برای تولید داده های آموزشی برای بازیابی تصویر در زمینه مجموعه های دیجیتالی آثار هنری نیز اعمال شد [ ۱۷ ، ۱۸ ، ۱۹ ]. این اجازه می دهد تا نمونه هایی متشکل از جفت تصاویر با وضعیت شباهت شناخته شده از مجموعه داده های موجود حاوی تصاویر با حاشیه نویسی تولید شود. در اکثر رویکردهای ذکر شده، شباهت تصاویر به عنوان یک مفهوم باینری در نظر گرفته می شود: یک جفت تصویر یا مشابه است یا نه [ ۱۱ ، ۱۷ ].
با این حال، در زمینه بازیابی تصویر در پایگاههای داده آثار هنری، مفهوم تدریجی شباهت [ ۱۳ ، ۱۴ ] ممکن است شهودیتر از مفهوم دوتایی باشد. یک گزینه برای تعریف چنین مفهوم غیر دودویی از شباهت را می توان با اندازه گیری سطح شباهت یک جفت تصویر با سطح توافق حاشیه نویسی های معنایی برای متغیرهای متعدد به دست آورد – مفهومی که ما به عنوان شباهت معنایی در [ ۲۰ ] نام بردیم. ۲۱ ]. در این کارها مشکل کمبود اطلاعات را نیز در نظر گرفتیم: اگر به طور خودکار از مجموعههای آنلاین موزهها جمعآوری شود، بسیاری از سوابق موجود در پایگاه داده حاوی اطلاعاتی درباره اشیاء میراث فرهنگی حاوی حاشیهنویسی برای همه متغیرهایی که برای تعریف شباهت مرتبط هستند، نخواهد بود.
در این مقاله، ما یک روش مبتنی بر CNN برای بازیابی تصویر ارائه میکنیم که میتواند برای هر پایگاه داده حاوی تصاویر با حاشیهنویسی معنایی اعمال شود. بر اساس کار قبلی ما [ ۲۱]، نمونه های آموزشی به طور خودکار از پایگاه داده تعیین می شوند، که منجر به مفهوم تدریجی تشابه معنایی می شود، که همچنین می تواند با نمونه های بصری ترکیب شود. انتظار می رود این منجر به نتایج بازیابی شود که به ویژه برای افرادی که می خواهند با تجزیه و تحلیل حاشیه نویسی تصاویر بازیابی شده چیزی در مورد ویژگی های تصاویر پرس و جو بیاموزند، معنی دار است، و همچنین امکان ارزیابی کمی را بر اساس k-نزدیک ترین همسایه (kNN) فراهم می کند. ) طبقه بندی. روش ما همچنین اجازه می دهد تا نمونه هایی با حاشیه نویسی ناقص در آموزش در نظر گرفته شوند. در مقایسه با کار قبلی خود، ما مقدار فقدان آموزشی را برای شباهت یادگیری کمی تغییر می دهیم و مهمتر از آن، یک ضرر طبقه بندی کمکی اضافی اضافه می کنیم.برای هر نمونه آموزشی، که انتظار داریم از خوشهبندی در فضای توصیفگر با وادار کردن توصیفگرها به داشتن اتصال درون کلاسی بهتر پشتیبانی کند.
مشارکت های علمی این مقاله را می توان به صورت زیر فرموله کرد:
-
تا آنجا که ما می دانیم، کار ما اولین کاری است که از برچسب های کلاسی از متغیرهای معنایی چندگانه برای تعریف شباهت برای بازیابی تصویر در ترکیب با از دست دادن طبقه بندی کمکی در یک استراتژی آموزشی انتها به انتها استفاده می کند. کارهای موجود با استفاده از یک ضرر طبقه بندی کمکی که ما از آن آگاه هستیم [ ۲۲ ، ۲۳ ، ۲۴ ] از چندین متغیر بهره برداری نمی کنند و بنابراین از مفهوم تدریجی شباهت استفاده نمی کنند.
-
ما از یک مفهوم تدریجی و نه دوتایی از تشابه تصاویر مبتنی بر متغیرهای معنایی متعدد استفاده میکنیم و در عین حال مشکل حاشیهنویسیهای گمشده را در نظر میگیریم، که هنگام برخورد با مجموعههایی از رکوردهای جمعآوریشده از اینترنت مهم است. آثار دیگر به طور ضمنی تعداد متفاوتی از برچسبها را در هر تصویر اجازه میدهند، زیرا صحنه حاوی چندین شی است، به عنوان مثال، [ ۱۲ ، ۱۳ ، ۱۴ ]، که در برنامه ما صادق نیست.
-
ما تعریف تدریجی وضعیت شباهت جفتهای تصویر را به از دست دادن سهگانه [ ۲۵ ] انتقال میدهیم تا نمایشهای تصویری ریزدانه را یاد بگیریم، به طوری که فواصل اقلیدسی توصیفگرهای آموختهشده مجبور شوند درجات مختلف شباهت را بدون نیاز به دقت منعکس کنند. یک حاشیه در ضرر انتخاب کنید. حاشیه با درجه شباهت و عدم قطعیت وضعیت شباهت سازگار است.
-
فرمول ما از ضرر به ما امکان می دهد مفاهیم مختلف شباهت را برای آموزش ترکیب کنیم تا توصیف کننده هایی را به دست آوریم که هم از نظر بصری و هم از نظر معنایی مشابه هستند.
-
ما مجموعه گستردهای از آزمایشها را بر اساس مجموعه دادهای از پارچههای ابریشمی، با استفاده از طبقهبندی kNN برای ارزیابی کمی ارائه میکنیم، که همچنین تأثیر از دست دادن طبقهبندی بر نتایج را برجسته میکند. برای نشان دادن قابلیت انتقال این رویکرد، آزمایشهایی را نیز برای بازیابی تصویر بر اساس مجموعه داده WikiArt ارائه میکنیم ( http://www.wikiart.org ، بازدید در ۳۰ نوامبر ۲۰۲۱).
ادامه این مقاله با یک مرور کلی در مورد کار مرتبط شروع می شود ( بخش ۲ ). روش جدید ما برای بازیابی تصویر در بخش ۳ ارائه شده است . بخش ۴ مجموعه داده های مورد استفاده برای ارزیابی این روش را توصیف می کند، در حالی که بخش ۵ مجموعه ای جامع از آزمایش ها را بر اساس این مجموعه داده ها ارائه می دهد. در نهایت، بخش ۶ یافتههای اصلی ما را خلاصه میکند و پیشنهادهایی برای کارهای آینده ارائه میکند.
۲٫ کارهای مرتبط
کارهای اولیه بر روی بازیابی تصویر به ویژگی های دست ساز متکی بود. در بازیابی تصویر مبتنی بر محتوا (CBIR)، توصیفگرها به طور انحصاری محتوای بصری یک تصویر را به شکل ویژگیهای هیستوگرام رنگی، ویژگیهای شکل و ویژگیهای بافت منعکس میکنند [ ۳ ، ۴ ]. به این ترتیب، این ویژگیها بر ظاهر بصری تصاویر تمرکز میکنند و نتایج بازیابی اغلب در سطح مفهومی، که به عنوان شکاف معنایی نامیده میشود، نماینده نیستند . به منظور ارائه نتایج بازیابی معنادار معنایی و در نتیجه برای غلبه بر این شکاف معنایی، ویژگیهای معنایی اضافی حاصل از حاشیهنویسیهای متنی تصاویر در زمینه بازیابی تصویر مبتنی بر معنایی (SBIR) بررسی شدهاند. به عنوان مثال، ر. [۲۷ ] ویژگیهای متنی را از زیرنویسهای تصویر در میان سایر مواردی که میتوان در بازیابی تصویر ادغام کرد، استخراج کرد [ ۵ ]. با این حال، هیچ یک از این آثار اولیه توصیفگرها را از داده های آموزشی یاد نمی گیرند، که به عنوان نقطه قوت روش های مبتنی بر یادگیری عمیق در نظر گرفته می شود.
قبلاً در [ ۲۸ ] نشان داده شده بود که نمایشهای مشتقشده توسط یک CNN که از قبل برای کار کاملاً متفاوتی آموزش دیده است، به عنوان مثال، طبقهبندی، میتواند برای دستیابی به نتایج بازیابی تصویر معنیدارتری نسبت به روشهای کلاسیک که به طور خاص برای بازیابی تصویر طراحی شدهاند، استفاده شود. بسیاری از رویکردهای یادگیری عمیق که برای بازیابی تصویر طراحی شده اند، از CNN های سیامی متشکل از دو شاخه با وزن های مشترک استفاده می کنند [ ۲۹ ]. هنگام آموزش یک شبکه سیامی، از دست دادن کنتراست [ ۸] اغلب اعمال می شود. این شبکه را مجبور میکند تا توصیفگرهای مشابهی را برای جفتهای تصویری که مشابه در نظر گرفته میشوند و برای جفتهای تصویری که در نظر گرفته میشوند غیرمشابه هستند، توصیفکنندههای غیرمشابه تولید کند. از آنجایی که فاصله اقلیدسی برای اندازه گیری شباهت توصیفگرها در این از دست دادن استفاده می شود، می توان از آن برای بازیابی تصویر نیز استفاده کرد، به عنوان مثال، [ ۱۰ ]. در حالی که تمرین با از دست دادن کنتراست مستلزم جفت تصاویر مشابه یا غیرمشابه است، از دست دادن سه گانه [ ۹ ]] به سهگانههای تصویری نیاز دارد که هر کدام از یک تصویر لنگر، یک نمونه مثبت – یعنی تصویری شبیه به لنگر تعریف شده است – و یک نمونه منفی که با لنگر متفاوت است، تشکیل میشود. این تلفات توصیفگر نمونه مثبت را وادار می کند تا حداقل با یک حاشیه از پیش تعریف شده به توصیفگر لنگر از نظر فاصله اقلیدسی بیشتر شبیه باشد تا توصیفگر نمونه منفی. هر دو روش آموزشی به نمونه های آموزشی با وضعیت شباهت باینری شناخته شده نیاز دارند که اغلب با برچسب گذاری دستی تولید می شوند. به عنوان مثال، [ ۹ ، ۱۰ ].
۲٫۱٫ بهره برداری از حاشیه نویسی های معنایی
یک جایگزین برای برچسبگذاری دستی، بهرهبرداری از حاشیهنویسی معنایی اختصاص داده شده به تصاویر برای تعریف شباهت است. یک راه ساده برای انجام این کار در عین حفظ مفهوم شباهت باینری، در نظر گرفتن برچسبهای کلاس تنها یک متغیر معنایی است: اگر دو تصویر دارای برچسب کلاس یکسانی باشند، مشابه در نظر گرفته میشوند. در غیر این صورت، آنها متفاوت هستند. مثالی برای چنین رویکردی [ ۱۱]، که در آن جفت های حاصل با یک وضعیت شباهت باینری شناخته شده در یک روش آموزشی شامل از دست دادن سه گانه استفاده می شود. اگرچه این استراتژی مشکل برچسبگذاری دستی را در صورت موجود بودن پایگاه داده با تصاویر حاشیهنویسی حل میکند، وضعیت شباهت یک جفت تصویر همچنان به صورت دودویی تعریف میشود، که این واقعیت را در نظر نمیگیرد که برخی از تصاویر ممکن است شبیهتر در نظر گرفته شوند. یکدیگر نسبت به دیگران و اجازه نمی دهد روشی برای بازیابی تصاویری که با توجه به متغیرهای معنایی متعدد شبیه به تصویر پرس و جو هستند آموزش داده شود.
اگر چندین حاشیه نویسی برای هر تصویر در نظر گرفته شود، درجات مختلفی از شباهت دو تصویر را می توان تعریف کرد [ ۱۲ ، ۱۳ ، ۱۴ ]. در [ ۱۲ ]، سطوح مختلف تشابه معنایی بر اساس تعداد برچسب های یکسان اختصاص داده شده به دو تصویر تعریف شده است. تمرین بر اساس از دست دادن سه قلو است، با استفاده از درجات مختلف شباهت به وزن اهمیت یک سه قلو در تمرین در حالی که یک فراپارامتر حاشیه ثابت حفظ می شود. بنابراین، حداقل فاصله ای که بین فواصل توصیفگرهای مثبت و نمونه های منفی از توصیفگر لنگر اعمال می شود، مستقل از درجه تشابه آنها، برای همه سه قلوها یکسان است.
در [ ۱۳ ]، آموزش به فاصله های توصیفگر نیاز دارد تا درجات مختلفی از شباهت را منعکس کند. با استفاده از از دست دادن کنتراست، توصیفگرهای تصاویری که حاشیه نویسی آنها کاملاً مطابقت دارد، مجبور می شوند فاصله کمتری از حاشیه مثبت از پیش تعریف شده داشته باشند، در حالی که حاشیه تعیین کننده حداقل فاصله توصیفگر بین تصاویر با حاشیه نویسی تا حدی یا کاملاً متفاوت، با درجه شباهت وزن می شود. ; حاشیه یک فراپارامتر است که باید انتخاب شود. یک تعریف تدریجی از شباهت معنایی بر اساس فاصله کسینوس بین دو بردار برچسب در [ ۱۴ ] ارائه شده است.]. نویسندگان یک افت را بر اساس جفت تصاویر فرموله می کنند که شباهت توصیفگر تصویر را مجبور می کند تا با شباهت معنایی تدریجی در طول آموزش بدون نیاز به تنظیم یک فراپارامتر حاشیه مطابقت کند.
همه مقالات ذکر شده با استفاده از حاشیه نویسی های متعدد [ ۱۲ ، ۱۳ ، ۱۴] با هدف یادگیری کدهای هش باینری به عنوان توصیفگر تصویر به جای بردارهای ویژگی با ارزش واقعی است. برچسبهای استفاده شده در این مقالات جنبههای مختلف صحنه به تصویر کشیده شده را توصیف میکنند، به عنوان مثال، انواع شیء مختلف، در حالی که در کار ما، آنها به ویژگیهای معنایی انتزاعیتر شی تصویر شده مربوط میشوند، به عنوان مثال، مکان و زمان پیدایش شی تصویر شده. . علاوه بر این، حتی با وجود اینکه آنها تعداد متفاوتی از برچسبها را به یک تصویر اختصاص میدهند، اما مقالات ذکر شده، حاشیهنویسیهای گمشده را در تعاریف شباهت خود در نظر نمیگیرند. ما به صراحت با حاشیه نویسی های گمشده در یادگیری مبتنی بر سه گانه سروکار داریم و از آنها برای تعریف درجه ای از عدم قطعیت وضعیت شباهت که بر حاشیه ضرر سه گانه تأثیر دارد، استفاده می کنیم.
۲٫۲٫ تلفات کمکی
قابلیت استفاده از بردارهای ویژگی یاد گرفته شده در زمینه طبقه بندی تصویر برای خدمت به عنوان توصیف کننده برای بازیابی تصویر قبلاً بررسی شده است [ ۲۸ ، ۳۰ ، ۳۱ ، ۳۲ ]. حتی استفاده از فعالسازیهای لایه softmax برای بازیابی تصویر ممکن است [ ۳۳ ]. در [ ۳۴ ]، طبقه بندی برای محدود کردن فضای جستجو برای بازیابی تصویر به تصاویر متعلق به همان دسته تصویر جستجو استفاده می شود. برای بهبود بیشتر خوشه بندی توصیفگرهای تصویر با توجه به شباهت تصاویر ارائه شده، یادگیری توصیفگر را می توان با ترکیب تلفات زوجی یا سه گانه با یک افت طبقه بندی کمکی اضافی تحقق بخشید..
در [ ۲۲ ]، یادگیری توصیفگر بر اساس از دست دادن متضاد با از دست دادن طبقه بندی ترکیب شده است. تنها یک متغیر منفرد هم برای تعریف شباهت تصاویر به صورت باینری و هم برای طبقه بندی در نظر گرفته می شود. رویکردهای مشابه با تکیه بر یک متغیر واحد در [ ۲۳ ، ۲۴ ] نشان داده شده است، اما در این مقالات، از دست دادن سه گانه در ترکیب با یک ضرر طبقه بندی استفاده می شود. این مورد در [ ۳۵ ] نیز وجود دارد، که در آن دو تابع تلفات کمکی اضافی پیشنهاد شده است: یک افت کروی ، که برای پشتیبانی از یادگیری تفکیک پذیری بین طبقاتی طراحی شده است، و یک تلفات مرکزی .، انتظار می رود از اتصال درون کلاسی پشتیبانی کند. همه این آثار از برچسبهای کلاس یک متغیر فقط برای تعریف شباهت استفاده میکنند که منجر به وضعیت شباهت باینری تصاویر میشود و بنابراین اجازه نمیدهد درجات مختلف شباهت را یاد بگیریم. در [ ۳۶ ]، یادگیری توصیفگر نیز با از دست دادن طبقه بندی ترکیب می شود، که در آن از چندین متغیر معنایی برای انجام یادگیری چند وظیفه ای استفاده می شود. هدف از یادگیری توصیفگر این است که توصیفگرهای تصویر سطح بالایی را که توسط آخرین لایه استخراج کننده ویژگی تولید می شود مجبور کنیم تا با ویژگی های مجموعه داده ای که یک تصویر به آن تعلق دارد تغییر نکند. در [ ۳۶]، دو توصیفگر متفاوت در نظر گرفته شده است. برای این منظور، توصیفگرهای تولید شده توسط دو معماری شبکه چند وظیفهای، یکی در هر مجموعه داده، با از دست دادن سهگانه ارائه میشوند و توصیفگرهای متعلق به مجموعههای داده مختلف را مجبور میکند تا شبیهتر از یک جفت توصیفگر متعلق به تصاویری از همان مجموعه داده باشند. اگرچه [ ۳۶ ] از برچسبهای کلاس چندین متغیر برای یادگیری توصیفگرها با استفاده از یادگیری چند وظیفهای استفاده میکند، مفهوم شباهت هنوز به صورت دودویی تعریف میشود.
ما میتوانیم دقیقاً یک اثر را شناسایی کنیم که امکان تعریف دقیق شباهت را فراهم میکند و علاوه بر این از یک فقدان طبقهبندی برای حمایت از یادگیری توصیفگر استفاده میکند. در [ ۳۷ ]، یک تعریف دقیق از شباهت با بهرهبرداری از ارتباط معنایی برچسبهای کلاس با توجه به فاصله نسبی آنها در هستیشناسی WordNet [ ۳۸ ]] پیشنهاد می شود. آموزش توصیفگر، که میتواند به صورت اختیاری با آموزش یک طبقهبندیکننده ترکیب شود، با یادگیری نقشهبرداری از تصاویر به جاسازیهایی که برای مطابقت با تعبیههای کلاس از پیش محاسبهشده اعمال میشوند، تحقق مییابد، جایی که تعبیههای کلاس میتوانند به طور تکراری از یک معیار تشابه برای تصاویر مشتق شوند. با در نظر گرفتن جنبه های معنایی تا جایی که ما می دانیم، هیچ اثری وجود ندارد که درجات مختلفی از شباهت توصیفگر را در ترکیب با از دست دادن طبقه بندی به صورت سرتاسری یاد بگیرد. به طور خاص، ما نتوانستیم هیچ کاری را پیدا کنیم که از کلاسهای چندین متغیر معنایی برای تعریف یک مفهوم دقیق از شباهت معنایی و یادگیری پیشبینی متغیرها به منظور پشتیبانی از یادگیری توصیفگر استفاده کند.
۲٫۳٫ بازیابی تصویر برای میراث فرهنگی
همه آثار ذکر شده تاکنون به یادگیری توصیفگر برای بازیابی تصویر می پردازند، اما در زمینه کاربردهایی که شامل حفظ میراث فرهنگی نمی شوند. بسیاری از آثاری که روشهای یادگیری ماشین را در زمینه حفظ میراث بررسی میکنند، بر طبقهبندی مبتنی بر تصویر آثار هنری به تصویر کشیده شده با توجه به یک [ ۳۹ ، ۴۰ ، ۴۱ ] یا چند متغیر [ ۴۲ ، ۴۳ ، ۴۴ ] تمرکز میکنند. با این وجود، بازیابی تصویر در حال تبدیل شدن به یک کار مهم فزاینده در آن زمینه نیز هست [ ۴۵ ].
اولین رویکردها از نمایش های مبتنی بر گراف از تصاویر به منظور جستجوی اشیاء مشابه در پایگاه داده بهره برداری می کنند [ ۴۶ ]. رویکردهای جدیدتر برای بازیابی تصویر در زمینه میراث فرهنگی بر ویژگیهای تصویر سطح بالا که توسط CNN آموخته شده است، تکیه دارند. به عنوان مثال، [ ۱۷ ، ۴۷ ]. در [ ۴۷ ]، یک رویکرد بدون نظارت برای بازیابی تصویر بر اساس استخراج ویژگی های تصویر با یک CNN از پیش آموزش دیده پیشنهاد شده است. پس از تبدیل این ویژگیها به توصیفگرهای فشردهتر با استفاده از تجزیه و تحلیل مؤلفههای اصلی، بازیابی تصویر با جستجوی نزدیکترین همسایگان در فضای توصیفگر بر اساس فواصل اقلیدسی انجام میشود. در مقابل، نویسندگان [ ۱۷] پیشنهاد آموزش CNN برای ایجاد ویژگی های تصویر مناسب برای بازیابی با به حداقل رساندن اتلاف سه گانه. برای این منظور، آنها داده های آموزشی را تولید می کنند که از برچسب های کلاس پنج متغیر معنایی برای تعریف شباهت تصاویر به صورت باینری استفاده می کنند. فرض بر این است که دو تصویر در مواردی که بیش از دو برچسب کلاس یکسان دارند، مشابه باشند.
هدف بازیابی چند وجهی به جای بازیابی تصاویری که بیشتر شبیه به یک تصویر پرس و جو هستند، یافتن تصاویری است که بیشترین ارتباط را با متن پرس و جو ارائه شده یا یافتن بهترین متن های توصیفی برای یک تصویر پرس و جو دارند. بازیابی تصویر متقاطع نقش مهمی در زمینه پرس و جو از مجموعه های هنری ایفا می کند، به عنوان مثال، [ ۱۸ ، ۱۹ ]، جایی که تطبیق تصاویر و متون در مجموعه های مرتبط با میراث فرهنگی یک کار چالش برانگیز است [ ۴۸ ]. در [ ۱۸ ]، توصیفگرها با به حداقل رساندن یک نوع از دست دادن سه گانه، که در آن توصیفگرهای تصویر و توصیفگرهای متن مجبور هستند با توجه به محصول نقطهای خود مشابه باشند، آموخته میشوند. رویکرد در [ ۱۹] همچنین به بازیابی متقابل وجهی با استفاده از راهبردهایی شبیه به راهبردهای مورد استفاده در کار ما می پردازد. نویسندگان توصیفگرهای تصویر را برای بازیابی بر اساس CNN (ContextNet) از پیش آموزش دیده برای طبقه بندی چند وظیفه ای چهار متغیر معنایی به دست می آورند. به منظور یادگیری نمایشهای تصویر معنادار از نظر معنایی، آموزش ContextNet طبقهبندی را با نگاشت توصیفگرهای تصویر به نمایشهای node2vec [ ۴۹ ] ترکیب میکند که زمینه شی تصویر شده را با توجه به یک نمودار دانش حاوی آثار هنری توصیف میکند. با این وجود، نویسندگان بازیابی تصویر به تصویر را بررسی نمیکنند، اما پتانسیل توصیفگرهای تصویری را که با استفاده از روش خود برای بازیابی تصویر متقاطع آموختهاند ارزیابی میکنند.
اگرچه آثاری وجود دارد که به بازیابی تصویر در زمینه کاربردهای میراث فرهنگی می پردازند، هیچ یک از آنها به جز کار قبلی ما [ ۲۱ ] از متغیرهای معنایی متعدد برای تعریف درجات مختلف شباهت برای آموزش بهره برداری نمی کنند. علاوه بر این، هیچ اثری یافت نشد که یادگیری توصیفگر را با از دست دادن طبقهبندی کمکی برای پشتیبانی از خوشهبندی در فضای ویژگی ترکیب کند. رویکرد در [ ۱۹] بیشتر شبیه ما است، اما از یک سو، طبقهبندی تصویر و یادگیری توصیفگر در دو مرحله در آن مقاله تحقق مییابد، و از سوی دیگر، این رویکرد به جای بازیابی تصویر به تصویر، به بازیابی چندوجهی میپردازد. در نهایت، هیچ اثری در زمینه بازیابی تصویر در حوزه میراث فرهنگی که بر تصاویر پارچه های ابریشمی متمرکز باشد، پیدا نکردیم. همه آثار ذکر شده تا کنون از مجموعه دادههای تصاویری استفاده میکنند که نقاشیها را نشان میدهند.
۲٫۴٫ بحث
اگرچه تعداد کمی از آثار به بازیابی تصویر برای تصاویری که پارچهها را نشان میدهند، وجود دارد، اکثر آنها به جای پارچههای ساده، به بازیابی پارچههای پردازششده مانند لباسها میپردازند [ ۳۶ ، ۵۰ ، ۵۱ ، ۵۲ ]. چند کار نیز بازیابی تصویر را برای پارچههای ساده بررسی میکنند، اما آنها وضعیت شباهت جفتهای آموزشی را منحصراً بر اساس برچسبهای کلاس یک متغیر واحد تعریف میکنند [ ۵۳ ]، یا شبکه را فقط برای طبقهبندی پارچه آموزش میدهند و از سطح بالا استفاده میکنند. ویژگی های سطح برای بازیابی تصویر [ ۵۴ ]. تا آنجا که ما می دانیم، اثر ما تنها اثری است که به بازیابی تصویر پارچه در زمینه میراث فرهنگی می پردازد، به جز کارهای قبلی ما [۲۱ ].
در حالی که روشهای موجود با تمرکز بر یادگیری درجات مختلف شباهت [ ۱۳ ، ۱۴ ] و همچنین روشهای مربوط به بازیابی تصویر در زمینه میراث فرهنگی [ ۱۷ ، ۱۹ ] وجود دارد، به نظر نمیرسد که هیچ کاری در مورد بررسی دقیق وجود نداشته باشد. مفهوم شباهت بر اساس متغیرهای متعدد تحت بررسی حاشیه نویسی های گمشده به جز کار قبلی ما [ ۲۱ ]. علاوه بر این، تا جایی که ما می دانیم، هیچ اثری وجود ندارد که چنین مفهوم شباهتی را با از دست دادن طبقه بندی کمکی برای پیش بینی متغیرهای مورد استفاده برای تعریف شباهت ترکیب کند. در [ ۲۲ ، ۲۳ ، ۲۴ ، ۳۶]، یادگیری توصیفگر با یک ضرر کمکی ترکیب می شود، اما این رویکردها همه بر اساس یک متغیر واحد برای طبقه بندی کمکی یا برای مفهوم شباهت یا برای هر دو هستند.
مشابه ترین آثار با رویکرد ارائه شده در این مقاله [ ۱۹ ] و کار قبلی خود ما [ ۲۱ ] است. حتی اگر [ ۱۹ ] یاد می گیرد چندین متغیر را پیش بینی کند که ویژگی های میراث فرهنگی را توصیف می کند، آموزش طبقه بندی کننده را می توان به عنوان یک مرحله پیش پردازش از دیدگاه توصیفگرهای آموزش دیده بعدی برای بازیابی متقابل مشاهده کرد. در این مقاله، گونهای از شباهت بصری و معنایی تعریف شده در [ ۲۱ ] را اتخاذ میکنیم که درجات مختلفی از شباهت را امکانپذیر میکند در حالی که به صراحت حاشیهنویسیهای معنایی گمشده را در نظر میگیرد. در مقابل [ ۲۱]، به منظور بهبود رفتار خوشهبندی در فضای توصیفگر با توجه به ویژگیهای معنایی اشیاء ابریشمی نشاندادهشده در تصاویر مرتبط، یک افت طبقهبندی کمکی اضافی را معرفی میکنیم. برای این منظور، ما از یک نوع از دست دادن طبقهبندی چند وظیفهای بهرهبرداری میکنیم که همچنین قادر به مقابله با حاشیهنویسیهای گمشده است [ ۵۵ ].
۳٫ روش شناسی
هدف اصلی روش پیشنهادی بازیابی تصویر بر اساس توصیفگرهایی است که می توانند به عنوان نمایه ای برای پایگاه داده عمل کنند. نتیجه از مجموعه k تشکیل شده استتصاویر در یک پایگاه داده با شبیه ترین توصیفگرها به توصیف کننده یک تصویر پرس و جو. رویکرد ما برای یادگیری توصیفگرها به مجموعه ای از تصاویر با حاشیه نویسی شناخته شده برای مجموعه دلخواه از متغیرها نیاز دارد. این حاشیه نویسی ممکن است ناقص باشد. به عنوان مثال، حاشیه نویسی برای برخی از متغیرها ممکن است برای برخی یا حتی همه نمونه ها وجود نداشته باشد. روش ما بر اساس یک CNN است که یک تصویر RGB را به عنوان ورودی می گیرد و توصیفگر مورد نیاز را تولید می کند. در فرآیند آموزش، یاد میگیرد که توصیفگرهایی تولید کند که فاصلههای اقلیدسی آنها به طور ضمنی اطلاعاتی در مورد درجه شباهت تصاویر ورودی ارائه میکند. در این زمینه، تمرکز ما بر روی تشابه معنایی است، که شباهت دو تصویر را با درجه تطابق ویژگیهای معنایی این تصاویر اندازهگیری میکند. همانطور که در [ ۲۱]، جنبه های شباهت بصری می تواند یادگیری شباهت معنایی را با فرکانس بسیار متفاوت از ویژگی های فردی بهبود بخشد، بنابراین ترکیبی از مفاهیم معنایی و بصری شباهت نیز در اینجا در نظر گرفته شده است، اما در شکل کمی تغییر یافته در مقایسه با [ ۲۱ ]. داده های آموزشی به طور خودکار از داده های موجود استخراج می شوند.
ایده اصلی این مقاله ترکیب یادگیری توصیفی با یادگیری چند وظیفه ای برای پیش بینی ویژگی های معنایی مورد استفاده برای تعریف شباهت معنایی است. یک نمایش مشترک که هم برای تولید توصیفگرها و هم برای پیشبینی برچسبهای کلاس متغیرهای معنایی چندگانه استفاده میشود، با به حداقل رساندن فقدان مربوط به شباهت جفتها یا سهگانه تصاویر همراه با فقدان طبقهبندی چند وظیفهای، بهصورت سرتاسر یاد میشود. . فرض بر این است که افزودن فقدان طبقهبندی به یادگیری توصیفگر منجر به توصیفکنندههایی میشود که فاصلههای اقلیدسی آنها درجه تشابه معنایی جفتهای تصویر مربوطه را به روشی بهتر منعکس میکند. انتظار میرود که این ترکیب منجر به خوشههای بهتر مربوط به تصاویر با ویژگیهای معنایی مشابه شود، زیرا این امر مورد علاقه هر دو نوع کار در آموزش است.
بقیه این بخش با شرح مفصلی از معماری CNN در بخش ۳٫۱ شروع می شود . در بخش ۳٫۲ ، روش آموزش و همچنین تابع ضرر پیشنهادی برای آموزش CNN معرفی شده است. برای اینکه این مقاله مستقل باشد، بخش ۳٫۲٫۱ به طور خلاصه مفاهیم تشابه معرفی شده در [ ۲۱ ] و همچنین شرح مفصلی از ادغام مفاهیم شباهت در هدف آموزشی بازیابی تصویر را ارائه می کند. از دست دادن طبقه بندی تصویر کمکی در بخش ۳٫۲٫۲ توضیح داده شده است . در نهایت، جزئیات در مورد نحوه تولید دسته های آموزشی را می توان در بخش ۳٫۳ یافت .
۳٫۱٫ معماری شبکه
هدف اصلی CNN نگاشت یک تصویر ورودی x به یک توصیفگر تصویر است برای بازیابی تصویر استفاده شود. برای این منظور، معماری شبکه ارائه شده در شکل ۱ پیشنهاد شده است. از سه بخش اصلی تشکیل شده است: بخش استخراج ویژگی که ویژگی ها را ارائه می دهد ، یک هد بازیابی تصویر که توصیفگر واقعی را ارائه می دهد و یک سر طبقه بندی که نمرات کلاس عادی را ارائه می دهد که می تواند به عنوان احتمالات پسین تعبیر شود برای کلاس k از متغیر معنایی m . سر طبقه بندی فقط در طول آموزش وجود دارد تا امکان از دست دادن طبقه بندی کمکی را فراهم کند که قرار است از یادگیری توصیفگر پشتیبانی کند.
بخش استخراج ویژگی یک ستون فقرات ResNet152 [ ۵۶ ] بدون لایه طبقه بندی است. یک تصویر ورودی RGB x به اندازه ۲۲۴ در ۲۲۴ پیکسل می گیرد و یک بردار ویژگی ۲۰۴۸ بعدی را محاسبه می کند. ، جایی که بردار حاوی تمام وزن ها و بایاس های ResNet152 را نشان می دهد. خروجی ResNet آرگومان یک ReLU (واحد خطی تصحیح شده [ ۵۷ ]) غیرخطی و پس از آن، انصراف [ ۵۸ ] با یک احتمال است. اعمال می شود. این به دنبال دارد لایه های کاملاً متصل ( fc مفصل در شکل ۱ ) متشکل از هر گره آنها در هسته روش ما قرار دارند زیرا بردارهای ویژگی حاصل می شوند ورودی هر دو سر بازیابی تصویر و طبقه بندی هستند. بنابراین، اوزان لایههای fc مشترک ، هم تحتتاثیر از دست دادن دستهبندی چند وظیفهای کمکی و هم از تلفات مورد استفاده برای یادگیری توصیفگر قرار دارند. بر این اساس، فرض بر این است که نمایش تصویر آموخته شده است با توجه به حاشیه نویسی معنایی تصویر ورودی معنادارتر است.
هد بازیابی تصویر از یک عادی سازی ساده بردار ویژگی تشکیل شده است طول واحد است و به وزن شبکه بیشتری نیاز ندارد. در ادامه مقاله از کوتاه نویسی استفاده می کنیم برای نشان دادن وزن هایی که بر توصیفگر تأثیر دارند. نتیجه نرمال سازی، توصیفگر تصویر است برای بازیابی تصویر استفاده شود.
سر طبقه بندی تصویر بردار غیر عادی را می گیرد . پس از پردازش توسط یک فعال سازی ReLU، به M شاخه های جداگانه ارائه می شود که هر کدام مربوط به یک وظیفه طبقه بندی برای یادگیری است. یعنی برای پیش بینی یکی از متغیرهای M. هر انشعاب به لایه fc مشترک متصل می شود و از لایه های کاملاً متصل مخصوص کار – از گره ها، هر کدام با یک ReLU. در نهایت، هر شاخه دارای یک لایه طبقه بندی است – با گره ها، کجا تعداد کلاس هایی است که باید برای متغیر m متمایز شوند و نمرات کلاس غیرعادی را ارائه می دهند . وزنه ها نشان دهنده تمام اوزان در سر طبقه بندی، که در آن وزن های موجود در لایه ها را نشان می دهد – و وزن لایه ها هستند – . همه لایههای طبقهبندی M دارای یک فعالسازی softmax [ ۵۹ ] هستند که نمرات کلاس نرمال شده را ارائه میکنند.
که می توان آن را به احتمالات پسین تعبیر کرد ; به عنوان مثال، اعتقادات شبکه مبنی بر اینکه تصویر ورودی x متعلق به کلاس k برای متغیر m است.
۳٫۲٫ آموزش شبکه
آموزش CNN نشان داده شده در شکل ۱ با به حداقل رساندن یک تابع ضرر به دست می آید . CNN پیشنهادی دارای دو مجموعه پارامتر از دیدگاه آموزش است: وزن ها از ResNet152 و وزن های باقی مانده از لایه های اضافی وزنه ها با وزن های از پیش آموزش دیده به دست آمده در مجموعه داده ILSVRC-2012-CLS [ ۶۰ ] مقداردهی اولیه می شوند، در حالی که وزن ها از لایه های اضافی CNN به طور تصادفی با استفاده از مقیاس بندی واریانس مقداردهی اولیه می شوند [ ۶۱ ]. از آنجایی که انتظار میرود پارچههای ابریشمی یا سایر اشیاء در زمینه میراث فرهنگی به حوزه دیگری غیر از اشیاء نشاندادهشده در مجموعه داده ImageNet تعلق داشته باشند، آخرین بلوکهای باقیمانده شامل لایه ها به طور بالقوه دقیق تنظیم شده اند [ ۶۲ ]. مشخص کردن پارامترهای لایه های ResNet منجمد شده توسط و لایه های ResNet تنظیم شده توسط ، پارامترهایی که در آموزش تعیین می شوند عبارتند از . توجه داشته باشید که کل بردار پارامتر تبدیل می شود .
آموزش بر اساس مجموعه ای از نمونه های آموزشی است که شامل تصاویری با حاشیه نویسی معنایی برای حداقل یکی از متغیرهای M است. علاوه بر این، اطلاعاتی که دو یا چند تصویر یک شی را نشان میدهند، در صورت وجود میتوانند در آموزش در نظر گرفته شوند. به عنوان مثال، تصاویر را می توان از یک پایگاه داده حاوی رکوردهایی در مورد اشیایی که با چندین تصویر مرتبط هستند صادر کرد [ ۲۱ ]. آموزش بر پایه مینی دسته ای نزولی گرادیان تصادفی با لحظات تطبیقی است [ ۶۳ ]. در هر تکرار آموزشی، فقط یک دسته کوچک شامل نمونه های آموزشی در نظر گرفته شده است و فقط ضرر به دست آمده برای مینی دسته فعلی برای به روز رسانی پارامترها استفاده می شود . ما از توقف زود هنگام استفاده می کنیم. به عنوان مثال، روش آموزش زمانی خاتمه می یابد که از دست دادن اعتبار سنجی اشباع شود.
از آنجایی که ایده کلیدی این مقاله پشتیبانی از یادگیری توصیفگر با یادگیری همزمان یک طبقهبندی کننده چند وظیفهای کمکی به منظور بهبود خوشهبندی توصیفگرها است. شامل از دست دادن بازیابی تصویر است ، از دست دادن طبقه بندی و از دست دادن منظم :
از دست دادن بازیابی تصویر چندین مفهوم شباهت را برای یادگیری وزنهای شبکه قابل آموزش ترکیب میکند بر اساس مجموعه ای از نمونه های آموزشی به طوری که فواصل اقلیدسی توصیفگرها (ر.ک. شکل ۱ ) با درجه تشابه مطابقت دارد ; این به طور مفصل در بخش ۳٫۲٫۱ توضیح داده شده است . از دست دادن طبقه بندی تصویر وابستگی ریاضی وزن ها را درک می کند در توانایی شبکه برای پیشبینی برچسبهای کلاس صحیح برای همه تصاویر . بنابراین، می توان آن را به عنوان یک اصطلاح از دست دادن کمکی برای یادگیری توصیفگر در نظر گرفت که از خوشه بندی توصیفگرها با توجه به ویژگی های معنایی اشیاء تصویر شده پشتیبانی می کند. جزئیات مربوط به آن ضرر در بخش ۳٫۲٫۲ ارائه شده است. وزنه ها و در معادله ( ۲ ) تأثیر تلفات بازیابی تصویر و طبقهبندی را به ترتیب بر تلفات کل کنترل کنید. سرانجام، یک اصطلاح کاهش وزن را نشان می دهد که به صورت [ ۵۹ ] تعریف می شود:
هدف افزودن کاهش وزن به یک تابع کاهش وزن، جلوگیری از تناسب بیش از حد با جریمه کردن مقادیر زیاد است . پارامتر تأثیر مدت تنظیم بر ضرر را کنترل می کند ، به عنوان هایپرپارامتر دیگری که باید تنظیم شود.
۳٫۲٫۱٫ هدف آموزش بازیابی تصویر
از دست دادن بازیابی تصویر باید شبکه را با تطبیق پارامترهای قابل یادگیری آموزش دهد برای تولید توصیفگرهایی به گونه ای که برای هر جفت تصویر ، فاصله اقلیدسی از توصیفگرهای مربوطه و میزان تشابه دو تصویر را نشان می دهد که در آن
که در آن n شاخص یک جفت است که برای توابع زیان متفاوت تعریف می شود. ما یک تابع ضرر را پیشنهاد می کنیم که از سه عبارت از دست دادن شباهت تشکیل شده است:
هر یک از سه عبارت در معادله ( ۵ ) با مفهوم خاصی از شباهت مطابقت دارد و نیاز به نوع خاصی از نمونه های آموزشی تولید شده از تصاویر مینی دسته دارد. . مدت ضرر ، نیاز به یک مجموعه دارد از سه تایی از تصاویر آموزشی از ، شباهت معنایی را در آموزش شبکه ادغام می کند. ترم دوم، ، شباهت رنگ را در نظر می گیرد . نیاز به یک مجموعه دارد از جفت تصاویر آموزشی از . سرانجام، به یادگیری خود شباهت پی می برد و به مجموعه ای نیاز دارد از جفت تصویر از یک شیء استخراج شده از . تاثیر شرایط ضرر فردی بر توسط وزنه ها کنترل می شود ، ، و . پاراگراف های بعدی شامل شرح مفصلی از هر سه مفهوم شباهت و همچنین ادغام آنها در ضررها به ترتیبی است که در معادله ( ۵ ) رخ می دهند. راهی که در آن مجموعه از سه قلو و مجموعه و جفت های تصویر با یک مینی دسته تعیین می شوند در بخش ۳٫۳ به تفصیل شرح داده شده است .
از دست دادن تشابه معنایی
هدف از دست دادن شباهت معنایی یادگیری پارامترهای CNN است به طوری که توصیفگرهای حاصل شباهت معنایی تصاویر مربوطه را منعکس کنند. برای این منظور، مفهوم شباهت معنایی با بهرهبرداری از برچسبهای کلاس متغیرهای معنایی M مورد نیاز است. درجه هم ارزی برچسب های کلاس متغیرهای M اختصاص داده شده به یک جفت تصویر می توان با استفاده از شباهت معنایی تعریف شده در [ ۲۱ ] اندازه گیری کرد:
در معادله ( ۶ )، با نشان می دهد که آیا برچسب کلاس متغیر m برای تصویر با شاخص q شناخته شده است ( ) یا نه ( ). مقایسه واقعی برچسب های کلاس متغیر m در معادله ( ۶ ) توسط تابع محقق می شود
جایی که یک بردار است که برچسب کلاس را برای متغیر m که به آن اختصاص داده شده است نشان می دهد ، با . اگر کلاس k از متغیر m به تصویر اختصاص داده شود ، نشانگر ۱ است؛ در غیر این صورت، . بنابراین، تابع دلتای کرونکر در صورتی که برچسب کلاس k به هر دو اختصاص داده شود، ۱ را برمی گرداند و ، و در همه موارد دیگر ۰ را برمی گرداند. این رسمی شدن به این معنی است که برچسب برای متغیر m ممکن است ناشناخته باشد یا برای یا برای هر دوی آنها اگر حاشیه نویسی برای همه متغیرها مشخص باشد، تمام مقادیر ۱ خواهد بود و با درصد حاشیه نویسی یکسان برای دو تصویر مطابقت دارد. در نتیجه، عدم قطعیت در مورد هم ارزی برچسب های کلاس متغیرهای M بستگی به درصد متغیرهایی دارد که یا هیچ حاشیه نویسی ندارد که بتوان آن را به صورت بیان کرد
هدف از دست دادن شباهت معنایی یادگیری پارامترهای CNN است به طوری که شباهت معنایی از جفت تصویر تعریف شده در معادله ( ۶ ) با شباهت توصیفگر مطابقت دارد در معادله ( ۴ ). برای این منظور، از دست دادن سه گانه [ ۲۵ ] در [ ۲۱ ] اقتباس شد، که منجر به از دست دادن شباهت معنایی شد.
تابع ضرر در معادله ( ۹ ) به سه گانه نیاز دارد با ، هر کدام از یک نمونه لنگر تشکیل شده است ، یک نمونه مثبت و یک نمونه منفی ، جایی که نمونه ای است که بیشتر شبیه نمونه لنگر است . این زیان نیروهای داشتن فاصله اقلیدسی از که کوچکتر از فاصله است از جانب حداقل با یک حاشیه :
در معادله ( ۱۰ ) عدم قطعیت وضعیت شباهت جفت را نشان می دهد با توجه به معادله ( ۸ ). بنابراین، اصطلاح را می توان به عنوان حداکثر شباهت معنایی مثبت تفسیر کرد (به عنوان مثال، با فرض یکسان بودن همه حاشیه نویسی های از دست رفته)، و حاشیه به تفاوت بین شباهت تبدیل می شود لنگر و نمونه مثبت و حداکثر شباهت مثبت لنگر و نمونه منفی. بر این اساس، را می توان به عنوان تفاوت تضمین شده در شباهت معنایی بین جفت تصویر تفسیر کرد و . محدودیت بیان شده در معادله ( ۱۰ ) در تعریف مجموعه سه قلوهای در نظر گرفته شده در این از دست دادن در نظر گرفته می شود: فقط سه قلو از تصاویری که آن محدودیت را برآورده می کنند برای کمک به این ضرر واجد شرایط هستند (به بخش ۳٫۳ مراجعه کنید ).
از دست دادن شباهت رنگ
هدف از دست دادن شباهت رنگ یادگیری پارامترهای CNN است به طوری که توصیفگرهای حاصل برای تصاویر با توزیع رنگ مشابه مشابه و برای تصاویر با توزیع رنگ متفاوت متفاوت باشند. توافق بین توزیع رنگ دو تصویر و ، که به عنوان شباهت رنگ نشان داده می شود، می تواند با استفاده از ضریب همبستگی متقاطع نرمال شده محاسبه شود بردارهای ویژگی رنگ و [ ۲۱ ]:
جایی که هست عنصر از با ، تعداد عناصر یک بردار ویژگی است و میانگین بر همه است . وکتور ویژگی رنگ از یک تصویر توزیع رنگ آن تصویر را در فضای رنگی HSV ( H : hue، S : saturation، V : value) توصیف می کند. برای استخراج این بردار ویژگی، مقادیر H رنگ و اشباع S هر پیکسل از تصویر است تغییر اندازه به ۲۲۴ × ۲۲۴ پیکسل به عنوان مختصات قطبی در نظر گرفته می شود. آنها را می توان به مختصات دکارتی تبدیل کرد
به طوری که تمام ارزش های و در محدوده هستند . ما یک شبکه گسسته متشکل از سلول های شطرنجی (از r = ۵ استفاده می کنیم) و تعداد نقاط را می شماریم در هر سلول شطرنجی . در نهایت، ردیف های مربوطه را به هم متصل می کنیم تا بردار را تشکیل دهیم . بدین ترتیب، تعداد نقاط در سلول شطرنجی است ، جایی که ; این دلالت می کنه که .
ضریب همبستگی وابستگی خطی بین دو بردار ویژگی رنگ را بیان می کند و . در صورت توزیع رنگ یکسان از در فضای رنگی HSV، توصیفگرهای رنگ یکسان هستند و بنابراین ۱ می شود که نشان دهنده ۱۰۰٪ شباهت رنگ است. هرچه ضریب همبستگی کمتر باشد، درجه تشابه کمتری فرض می شود.
هدف از دست دادن شباهت رنگ یادگیری توصیفگرها است که فاصله اقلیدسی با شباهت رنگ مطابقت دارد از جفت تصویر در معادله ( ۱۱ ) تعریف شده است. این را می توان با به حداقل رساندن تابع ضرر زیر به دست آورد [ ۲۱ ]
این تابع از دست دادن به جفت نیاز دارد از تصاویر از مینی دسته، با ; تعداد جفت تصاویر از . در اصل، فاصله توصیفگر را مجبور می کند کوچک بودن برای جفت تصاویر با شباهت رنگی زیاد و بزرگ بودن برای جفت تصویر با شباهت کم. اگر ، نشان دهنده شباهت ۱۰۰٪ رنگ از و ، فاصله توصیفگر مجبور به صفر می شود. در حالت شدید دیگر حداکثر عدم تشابه – یعنی -باید باشد -یعنی حداکثر فاصله توصیفگر ممکن با توجه به این واقعیت که توصیفگرها به طول واحد نرمال شده اند (به بخش ۳٫۱ مراجعه کنید ).
از دست دادن خود شباهت
هدف از دست دادن خود تشابهی این است که یاد بگیریم که توصیفگرهای تصاویری که یک شی را نشان میدهند مشابه هستند و بنابراین، توصیفکنندههایی را یاد بگیریم که تا حدی نسبت به تبدیلهای هندسی و رادیومتری ثابت نیستند. خود شباهت یعنی یک تصویر شبیه به یک تصویر تعریف شده است که همان شی را به تصویر می کشد. این تنها مفهوم شباهت در روش ما است که تدریجی نیست. تلفات مربوطه مستلزم فاصله توصیفگر همه جفت ها است صفر شود [ ۲۱ ]:
این تابع از دست دادن به جفت نیاز دارد از تصاویر که در آن تصویری از مینی دسته است، با . همانطور که برای هر تصویر یک جفت وجود خواهد داشت ، ما داریم . دو گزینه برای منشا وجود دارد تصویر داده شده .
-
اگر مجموعه داده حاوی تصاویری باشد که همان شی را نشان می دهد، به عنوان یکی از این اشیاء انتخاب شده است. این مطابق با قانون ۱ از شباهت مبتنی بر قانون پیشنهاد شده در [ ۲۱ ] است. توجه داشته باشید که ضرر مبتنی بر قانون مربوط به [ ۲۱ ] در این مقاله در نظر گرفته نشده است.
-
اگر مجموعه داده حاوی چنین تصاویری نباشد یا مشخص نباشد که حاوی چنین تصاویری است، تصویر به صورت مصنوعی از تولید می شود و در این مورد، از دست دادن در معادله ( ۱۴ ) می تواند به عنوان گونه ای از افزایش داده ها دیده شود. این تنها موردی است که در از دست دادن شباهت خود [ ۲۱ ] در نظر گرفته شده است.
در مقایسه با [ ۲۱ ]، مجموعه ای از تبدیل ها به طور بالقوه اعمال می شود در مورد دوم گسترش یافته است. این شامل تبدیل های هندسی زیر است: چرخش ۹۰ ، چرخش افقی و عمودی، برش با درصد تصادفی و چرخش های تصادفی کوچک . مجموعه تحولات رادیومتری بالقوه شامل تغییر رنگ است با افزودن یک دلتای مقدار تصادفی و انطباق اشباع S با ضرب آن در یک عامل تصادفی . در نهایت، صفر تصادفی نویز گوسی میانگین با انحراف معیار می توان برای تولید تصویر اضافه کرد .
همانطور که در بالا توضیح داده شد، ما مفهوم خود شباهت را در [ ۲۱ ] با اولویت بندی تصاویر گسترش داده ایم. استخراج شده از مجموعه داده در طول یک نسل مصنوعی از برای تعریف یک جفت تصویر .
۳٫۲٫۲٫ هدف آموزش چند وظیفه ای کمکی
یک طبقهبندی چند وظیفهای کمکی قرار است از یادگیری توصیفگر برای تولید خوشههایی از توصیفگرهای تصویری که بهتر با تصاویر اشیاء با ویژگیهای معنایی مشابه مطابقت دارند، پشتیبانی کند. همانطور که این کاهش وزن ها را تحت تاثیر قرار می دهد از لایههای fc مشترک، انتظار میرود که از CNN در تولید توصیفگرها پشتیبانی کند که نشان دهنده ویژگی های خاص متغیر در تصاویر است به روشی بهتر
در [ ۵۵ ]، از دست دادن طبقه بندی چند وظیفه ای برای آموزش CNN برای پیش بینی متغیرهای متعدد مرتبط با تصاویر پارچه های ابریشمی پیشنهاد شد:
این یک توسعه از آنتروپی متقاطع softmax برای یادگیری چند کاره با حاشیه نویسی های گم شده است. متغیرهای M است. در معادله ( ۱۵ )، نشان دهنده خروجی softmax برای کلاس k است متغیر m است، تعداد کلاس های مربوطه است و یک متغیر شاخص با اگر k برچسب کلاس واقعی متغیر m باشد برای تصویر باشد و در غیر این صورت. جمع دوم فقط روی متغیرها گرفته می شود ، جایی که به عنوان زیرمجموعه ای از متغیرها تعریف می شود که حاشیه نویسی برای آنها در دسترس است. به منظور کاهش مشکلات با کلاسهای کمتر ارائهشده، ما تلفات در معادله ( ۱۵ ) را با یک نوع از دست دادن کانونی گسترش میدهیم [ ۶۴ ]. در حالی که نوع ارائه شده [ ۶۵ ] بر نمونه های تمرین سخت در مسائل طبقه بندی چند کلاسه تمرکز دارد، ما از ترکیبی از افت کانونی چند کلاسه در [ ۶۵ ] و از دست دادن چند وظیفه در معادله ( ۱۵ ) استفاده می کنیم که منجر به از دست دادن کانونی چند کاره چند کلاسه:
در معادله ( ۱۶ )، تعداد حاشیه نویسی های موجود برای همه متغیرهای M است. یعنی . پارامتر فوکوس تأثیر وزن کانونی را کنترل می کند در مورد از دست دادن . همانطور که وزن کانونی ۱ برای می شود و وزن کانونی ۰ برای می شود ، از دست دادن به شدت بستگی دارد با نمرات سافت مکس کوچک . بنابراین، وزن شبکه به شدت تحت تأثیر مثال های تمرینی سخت که با کوچک نشان داده شده است برای هنگام به حداقل رساندن . با فرض عدم تعادل کلاس برای توزیع کلاس حداقل یکی از متغیرهای M ، از دست دادن کانونی در معادله ( ۱۶ ) قرار است عملکرد طبقهبندی کلاسهای کمتر ارائهشده را بهبود بخشد، زیرا نمرات کلاسی چنین کلاسهایی عموماً پایین است، بنابراین از CNN نیز پشتیبانی میکند. برای تولید توصیفگرهایی که به احتمال زیاد به بازیابی تصاویر با ویژگیهای معنایی مشابه برای تصاویر پرسوجو مربوط به کلاسهای کمتر ارائهشده برای برخی متغیرها کمک میکنند.
۳٫۳٫ تولید دسته ای
این بخش یک نمای کلی از نحوه یک دسته کوچک از تصاویر را ارائه می دهد با برچسبهای کلاس مرتبط و همچنین اطلاعات بالقوه نشاندهنده تصاویری که یک شی را نشان میدهند، پردازش میشود تا مجموعه دادههای مورد نیاز برای شرایط ضرر فردی تولید شود. به طور کلی، از دست دادن طبقه بندی کمکی به مجموعه ای از تصاویر مستقل نیاز دارد، در حالی که شرایط از دست دادن در فقدان بازیابی تصویر به مجموعه هایی از جفت یا سه تایی از تصاویر برای یادگیری شباهت نیاز دارند. به عنوان مثال، برای تولید توصیف کننده هایی که فاصله اقلیدسی زوجی آنها منعکس کننده شباهت است. این مجموعه ها به صورت زیر تولید می شوند:
-
از دست دادن شباهت معنایی در رابطه ( ۹ ) به سه گانه نیاز دارد ∈ . در مرحله اول، تمام سه قلوهای ممکن با برای هر تصویر تولید می شوند . در مورد اعتبار یک سه گانه، نمونه مثبت است باید بیشتر شبیه باشد نسبت به نمونه منفی ، فقط آنهایی که سه قلوهایی که محدودیت مربوط به حاشیه فرموله شده در رابطه ( ۱۰ ) را برآورده می کنند به شبکه ارائه می شوند. به عنوان تعداد وابسته به حاشیه است از روی برچسب های کلاس موجود در یک دسته کوچک محاسبه می شود، از دست دادن با تعداد سه قلو نرمال می شود.
-
از دست دادن شباهت رنگ در معادله ( ۱۳ ) به جفت تصویر نیاز است . برای این منظور، تمام جفت های ممکن در مینی دسته تولید می شوند، به استثنای همه جفت ها با . بنابراین، از دست دادن شباهت رنگ برای محاسبه می شود جفت نمونه های آموزشی، کجا ! فاکتوریل یک عدد را نشان می دهد.
-
از دست دادن شباهت خود به جفت تصویر نیاز دارد . یک جفت از این قبیل در هر تصویر در دسته کوچک وجود دارد. همانطور که در بخش ۳٫۲٫۱ توضیح داده شد ، اگر تصاویر دیگری در مجموعه داده وجود داشته باشد که همان شی را نشان می دهد. ، یکی از این تصاویر به صورت تصادفی به عنوان شریک انتخاب می شود . در غیر این صورت، به صورت مصنوعی با استفاده از یک تبدیل تصادفی ترسیم شده همانطور که در تعریف شده است، تولید می شود بخش ۳٫۲٫۱ تعریف شده است، تولید می شود .
این منجر به جفت تصویر .
-
از دست دادن طبقه بندی در معادله ( ۱۶ ) به مجموعه ای از تصاویر مستقل نیاز دارد با کلاس های شناخته شده برای تمام متغیرهای M به منظور یادگیری به گونه ای که پیش بینی ها بهینه شود. بر این اساس، همه تصاویر در دسته کوچک را می توان به از دست دادن طبقه بندی ارائه شده است. از آنجایی که برچسبهای کلاس به طور بالقوه برای همه متغیرهای M در دسترس نیستند ، به طور بالقوه کمتر از آن هستند اصطلاحات آنتروپی متقاطع که از دست دادن طبقهبندی را در مورد برچسبهای کلاس متقابلاً منحصر به فرد در هر متغیر تشکیل میدهند. بنابراین، ضرر با تعداد برچسب های کلاس شناخته شده عادی می شود برای متغیرهای M ؛ به عنوان مثال، تعداد اصطلاحات تشکیل دهنده ضرر.
با توجه به عادی سازی تمام شرایط زیان با تعداد شرایط حاصل از مجموع توابع زیان، زیان کل نسبت به شرایط زیان با تعداد مجموع بیشتر تعصب ندارد.
۴٫ مجموعه داده
این بخش مجموعه داده هایی را توصیف می کند که برای ارزیابی روش توصیف شده در بخش ۳ استفاده می شوند. اولین مجموعه داده، به عنوان مجموعه داده SILKNOW، در بخش ۴٫۱ معرفی شده است . این شامل تصاویری از پارچه های ابریشمی است و برای ارزیابی کامل رویکرد بازیابی تصویر پیشنهادی استفاده می شود. مجموعه داده دوم، شرح داده شده در بخش ۴٫۲ ، گونه ای از مجموعه داده های WikiArt است و حاوی تصاویری از نقاشی های چند قرن اخیر است. این مجموعه داده برای تجزیه و تحلیل قابلیت انتقال روش پیشنهادی به سایر مجموعه دادههای میراث فرهنگی استفاده میشود.
۴٫۱٫ مجموعه داده SILKNOW
مجموعه داده SILKNOW بر اساس نمودار دانش SILKNOW [ ۱ ، ۲۱ ] است که در چارچوب پروژه EU-H2020 SILKNOW با هدف ایجاد و ارائه یک پلت فرم ( https://ada.silknow.org/ ، بازدید شده) ایجاد شده است. در ۳۰ نوامبر ۲۰۲۱) حاوی اطلاعاتی درباره میراث فرهنگی ابریشم اروپا. این نمودار حاوی سوابقی از پارچههای ابریشمی ساده و همچنین منسوجات فرآوریشده است که از مجموعههای آنلاین موزههای مختلف برداشت شدهاند. به عنوان مثال، Museu Tèxtil de Terrassa (مجموعه داده IMATEX) [ ۶۶] یا موزه هنرهای زیبای بوستون. هر رکورد مربوط به یک مصنوع است و بسیاری از رکوردها حداقل یک تصویر دارند. اطلاعات معنایی موجود در وبسایتهای جمعآوریشده در قالب پروژه SILKNOW بر اساس یک اصطلاحنامه، که یکی دیگر از نتایج این پروژه است، به یک قالب استاندارد شده نگاشت شد. علاوه بر این، نگاشت اطلاعات موجود به یک ساختار کلاس ساده برای متغیرهای ماده ، مکان ، بازه زمانی وجود دارد که اساس مجموعه داده مورد استفاده در این مقاله را تشکیل میدهد. و تکنیک
مجموعه داده SILKNOW مورد استفاده در این مقاله از نمودار دانش SILKNOW صادر شده است. این شامل ۴۸۸۳۰ تصویر از پارچه های ساده است که هر تصویر با یک حاشیه نویسی معتبر در حداقل یکی از چهار متغیر ذکر شده در بالا همراه است. برای جلوگیری از کلاسهایی که به شدت کمتر ارائه میشوند، فقط برچسبهایی که حداقل ۱۵۰ بار رخ میدهند معتبر تلقی میشوند. علاوه بر این، یک شناسه شی منحصر به فرد با هر تصویر مرتبط می شود، به طوری که اطلاعات مورد نیاز برای شناسایی تصاویری که همان شی را نشان می دهند، در تعریف جفت تصویر برای از دست دادن خود شباهت استفاده می شود (به بخش ۳٫۲٫۱ مراجعه کنید. ) در دسترس باشد. به منظور ارزیابی روش شناسی ارائه شده در بخش ۳مجموعه داده به طور تصادفی به یک مجموعه آموزشی (۶۰٪)، یک مجموعه اعتبارسنجی (۲۰٪) و یک مجموعه تست (۲۰٪) تقسیم شد. مجموعه تمرینی به زیرمجموعهای از تصاویر که برای بهروزرسانی وزنههای قابل تمرین استفاده میشوند و زیرمجموعه دیگری برای توقف زودهنگام تقسیم میشوند. آمار توزیع کلاس ها در همه متغیرها و همه زیر مجموعه ها در جدول ۱ آمده است.
همانطور که آمار در جدول ۱ نشان می دهد، مجموعه داده نامتعادل است، که آن را چالش برانگیز می کند. بسته به متغیر، مقدار برچسب های کلاس موجود بین ۳۲٫۲٪ برای تکنیک و ۷۲٫۴٪ برای مواد متفاوت است. از بین تصاویر موجود در مجموعه داده، ۶۱۴۳ دارای حاشیه نویسی برای هر چهار متغیر هستند. برای ۱۳۷۷۱ تصویر، برچسبهای کلاس برای سه متغیر از چهار متغیر شناخته شده است و ۱۹۴۲۱ تصویر با حاشیهنویسی برای دو متغیر وجود دارد. علاوه بر این، تعداد کلاس هایی که باید متمایز شوند بین ۳ کلاس برای مواد و ۱۷ کلاس برای مکان متغیر متفاوت است . نمونه هایی از تصاویر پارچه های ابریشمی ساده را می توان در شکل ۲ مشاهده کرد.
۴٫۲٫ مجموعه داده ویکی آرت
در سالهای اخیر، آثار زیادی به بررسی طبقهبندی تصاویر مجموعههای میراث فرهنگی پرداختهاند که بیشتر آنها به طبقهبندی تصاویر نقاشیها، مانند موارد موجود در مجموعه دادههای ویکی آرت، پرداختهاند. از آنجایی که مجموعه داده WikiArt از تصاویر و همچنین حاشیه نویسی برای چندین متغیر معنایی تشکیل شده است، نه تنها برای ارزیابی وظایف طبقه بندی مناسب است، بلکه الزامات روش بازیابی تصویر ما را نیز برآورده می کند. بنابراین، مجموعه داده WikiArt را برای نشان دادن قابلیت انتقال رویکرد خود به سایر مجموعههای دیجیتال غیر ابریشم در زمینه میراث فرهنگی انتخاب کردیم. از آنجایی که مجموعه داده WikiArt به طور مداوم در طول زمان در حال رشد است، ما تصمیم گرفتیم از نسخه WikiArt استفاده کنیم ( https://github.com/cs-chan/ArtGAN/tree/master/WikiArt%20Dataset ، بازدید شده در ۳۰ نوامبر ۲۰۲۱) که توسط نویسندگان [ ۴۰ ] ارائه شده است استفاده کنیم.]. آنها نه تنها داده های تصویر (در مجموع ۸۱۴۴۴ تصویر) و برچسب های کلاس مرتبط را برای سه متغیر ژانر ، سبک و هنرمند منتشر کردند، بلکه داده های آنها برای آموزش و اعتبارسنجی برای هر متغیر تقسیم شد. ما از همان تقسیم استفاده می کنیم و آموزش شبکه و همچنین تنظیم هایپرپارامتر را در مجموعه آموزشی آنها انجام می دهیم، در حالی که مجموعه اعتبارسنجی آنها منحصراً برای آزمایش مدل آموزش دیده و تنظیم شده استفاده می شود.
برخلاف آزمایشهای یادگیری تک وظیفهای در [ ۴۰ ]، ما یک هدف یادگیری چند وظیفهای را در زمینه بازیابی تصویر در نظر میگیریم، و همچنین شباهت را بر اساس متغیرهای متعدد تعریف میکنیم. در نتیجه، ما تقسیم دادههای ارائهشده را با حذف تصاویری که هم در آموزش و هم در مجموعههای اعتبارسنجی برای هر متغیر رخ میدهند، اصلاح میکنیم. بنابراین، مجموعه دادهای از ۸۰۸۸۰ تصویر با حداکثر سه برچسب کلاس در هر تصویر (یکی برای هر متغیر) با مجموعههای آموزشی و اعتبار سنجی ناهمگون به دست میآوریم. علاوه بر این، مجموعه آموزشی را به دو زیر مجموعه مجزا تقسیم کردیم. یکی برای آموزش شبکه و دیگری برای تنظیم هایپرپارامتر. در ادامه این مقاله، زیر مجموعه را برای آموزش شبکه به عنوان مجموعه آموزشی و زیر مجموعه را برای تنظیم هایپرپارامتر به عنوانمجموعه اعتبار سنجی. مجموعه ای که به عنوان مجموعه اعتبارسنجی در [ ۴۰ ] نامیده می شود مجموعه آزمایشی ما نامیده می شود . مشابه مجموعه داده SILKNOW، مجموعه داده آموزشی نیز به دو زیرمجموعه مستقل تقسیم میشود: بهروزرسانی ، شامل ۷۵ درصد از نمونههای آموزشی برای بهروزرسانی وزن، و توقف ، شامل ۲۵ درصد نمونههای باقیمانده برای توقف زودهنگام.
ساختارهای کلاس بهدستآمده و همچنین توزیع کلاسهای سه متغیر معنایی ژانر ، هنرمند و سبک در مجموعه دادههای WikiArt چند وظیفهای ما را میتوان در شکل ۳ یافت . برای ژانر متغیر ، ۱۰ کلاس متفاوت است، با تعداد نمونهها در هر کلاس بین ۱۸۷۹ برای تصویر کلاس و ۱۴۰۱۰ برای پرتره کلاس متفاوت است. برای هنرمند متغیر ، ۲۳ کلاس وجود دارد که حداقل و حداکثر تعداد نمونه ها به ترتیب ۴۶۱ ( سالوادور دالی ) و ۱۸۶۴ ( ونسان ون گوگ ) است. در نهایت، ۲۷ مختلف وجود دارد کلاس های سبک با حداقل ۱۰۶) است.کوبیسم تحلیلی ) و حداکثر ۱۲۹۴۱ تصویر در هر کلاس ( امپرسیونیسم ). شایان ذکر است که برچسب کلاس برای هنرمند متغیر برای ۲۳٫۲٪ از ۸۰۸۸۰ تصویر در مجموعه داده چند وظیفه ای موجود است، اطلاعات مربوط به ژانر نقاشی نشان داده شده برای ۷۹٫۷٪ از تصاویر و فقط سبک موجود است. اطلاعات برای همه تصاویر شناخته شده است. نمونه هایی برای تصاویر در مجموعه داده WikiArt در شکل ۴ نشان داده شده است.
۵٫ آزمایش ها و نتایج
در این بخش، روش یادگیری توصیفگرها برای بازیابی تصویر شرح داده شده در بخش ۳ ارزیابی می شود. ما با مروری بر آزمایش های انجام شده و شرح استراتژی ارزیابی برای مقایسه نتایج آزمایش های مختلف شروع می کنیم ( بخش ۵٫۱ ). یک مطالعه فرسایشی که تأثیر مؤلفههای مختلف رویکرد پیشنهادی را بررسی میکند را میتوان در بخش ۵٫۲ یافت . همه این آزمایشها بر اساس مجموعه داده SILKNOW (ر.ک. بخش ۴٫۱ ) هستند، که مربوط به مورد استفاده است که روش عمدتاً برای آن توسعه یافته است. برای نشان دادن قابلیت انتقال روش به سایر مجموعههای داده برچسبگذاری شده، ارزیابی نسخه مجموعه داده WikiArt شرح داده شده در بخش ۴٫۲نیز انجام شد. نتایج در بخش ۵٫۳ گزارش شده است.
۵٫۱٫ راه اندازی آزمون و استراتژی ارزیابی
به منظور آموزش CNN ارائه شده در بخش ۳٫۱ ، مجموعه های آموزشی مجموعه داده ها همانطور که در بخش ۴ تعریف شده است برای تعیین وزن شبکه استفاده می شود. در حالی که مجموعه اعتبارسنجی برای یافتن فراپارامترهای بهینه استفاده شد. مجموعههای آزمون برای ارزیابی مستقل استفاده میشوند که نتایج آن در بخشهای بعدی گزارش میشود.
۵٫۱٫۱٫ تنظیم تست عمومی
در فرآیند آموزش، تلفات ارائه شده در معادله ( ۲ ) با استفاده از نزول گرادیان کوچک دسته ای تصادفی [ ۵۹ ] با اندازه دسته ای به حداقل می رسد. استفاده از بهینه ساز Adam [ ۶۳ ] با استفاده از پارامترهای استاندارد ( ، ، و ) تا زمانی که از دست دادن یک زیرمجموعه مستقل از داده های آموزشی که به عنوان توقف در بخش ۴ مشخص شده است، اشباع شود.
مجموعهای از آزمایشهای اولیه – که به دلیل کمبود فضا در اینجا گزارش نشده است – برای تنظیم فراپارامترهای روش ما با ارزیابی نتایج روی مجموعه اعتبارسنجی استفاده شد. همه اینها بر روی مجموعه داده SILKNOW انجام شد. در آزمایشهای مبتنی بر مجموعه داده WikiArt، از همان پارامترها استفاده شد. تا آنجا که به ساختار CNN مربوط می شود، مشخص شد که استفاده از یک لایه کاملاً متصل با ۲۵۶ گره برای fc مشترک – یعنی با استفاده از و – بر انواع با لایه های بیشتر یا گره های بیشتر در هر لایه ترجیح داده می شود. معماری بهینه برای شاخه های طبقه بندی متشکل از لایه با گره ها تنظیم فراپارامتر با استفاده از نرخ یادگیری تایید کرد از همچنین انتخاب خوبی برای برنامه ما است. مقادیر بهینه برای نرخ ترک تحصیل بود ، برای کاهش وزن بود ، و f یا پارامتر در افت کانونی (معادله ( ۱۶ ))، بود . تا حدودی تعجب آور است، تنظیم دقیق آخرین بلوک های باقی مانده از ستون فقرات ResNet152 عملکرد را بهبود نمی بخشد. در نتیجه، تعداد لایههایی که باید تنظیم شوند تنظیم شد ، که دلالت بر این دارد که اوزان تعیین شده در قبل از تمرین بدون تغییر باقی می ماند. در نتیجه بردار پارامترهای ResNet دقیق تنظیم شده بردار صفر است و بردار پارامترهای قابل آموزش (ر.ک. بخش ۳٫۲ ).
۵٫۱٫۲٫ سری تست
بخش ۵٫۲ و بخش ۵٫۳ نتایج تجربی دو سری آزمایش را نشان می دهد. در اولین سری که بر روی مجموعه داده SILKNOW انجام شد (به بخش ۴٫۱ مراجعه کنید )، تأثیر شرایط زیان فردی را تشکیل می دهد. (معادله ( ۲ )) بر روی نتایج بازیابی تصویر ارزیابی می شود. این سری آزمایش همچنین پتانسیل روش ما را برای تولید توصیفگرهایی برای بازیابی تصویر در موردی که در ابتدا برای آن طراحی شده بود نشان میدهد. برای این منظور، مقادیر مختلف برای و همچنین مقادیر مختلف برای بررسی می شوند. جدول ۲ مروری بر آزمایش های انجام شده، شناسایی هر یک از آنها با نام و ارائه تنظیمات پارامتر مربوطه می دهد. به منظور تفسیر بهتر تفاوتهای عملکرد با توجه به اجزای تصادفی روش آموزش، هر آزمایش پنج بار اجرا میشود که منجر به میانگین معیارهای ارزیابی و یک انحراف استاندارد متناظر میشود.
پارامترسازی تابع زیان متغیری که در سری اول آزمایشها بهترین است، برای آزمایشهای سری آزمایشی دوم انتخاب شده است، علاوه بر متغیری که در آن همه عبارتهای ضرر به ضرر کل کمک میکنند. سری دوم باید قابلیت انتقال نتایج را به برنامه های دیگری غیر از برنامه ای که در ابتدا برای آن طراحی شده بود نشان دهد. متأسفانه، ما نتوانستیم هیچ مطالعه ای را پیدا کنیم که مقایسه منصفانه روش ما امکان پذیر باشد، زیرا در زمینه بازیابی تصویر تک وجهی برای کاربردهای میراث فرهنگی، ما از هیچ مقاله ای که هم نتایج و هم مجموعه داده های مورد استفاده برای آن استفاده می شود، بی اطلاع هستیم. دستیابی به آنها در دسترس است.
استراتژی ارزیابی
اگر هیچ نمونه ای از جفت تصاویر با وضعیت شباهت شناخته شده شناخته نشده باشد، ارزیابی یک روش بازیابی تصویر ساده نیست. با این حال، هدف اصلی روش ارائه شده در این مقاله، بازیابی تصاویری با خصوصیات معنایی مشابه با تصاویر پرس و جو است. در نتیجه، حاشیهنویسی معنایی موجود مجموعهای از نمونههای مرجع (مجموعه آزمایشی مجموعه داده مربوطه که برای ارزیابی استفاده میشود) میتواند برای ارزیابی کمی استفاده شود. بنابراین، نتایج بازیابی تصویر برای طبقه بندی k نزدیکترین همسایه (kNN) با استفاده می شود ، و ارزیابی بر اساس نتایج طبقه بندی مربوطه است. پس از آموزش شبکه، توصیفگرهای تصاویر موجود در مجموعه آموزشی محاسبه می شوند. این توصیفگرها مجموعه ای از تصاویر را نشان می دهند که در آنها کاربر می خواهد تصاویر مشابه معنایی را جستجو کند. آنها در یک kd-tree [ ۲ ] برای جستجوی سریع kNN سازماندهی شده اند. تصاویر مجموعه آزمایشی به عنوان تصاویر پرس و جو در نظر گرفته می شوند. برای هر یک از آنها یک توصیفگر محاسبه می شود و نزدیکترین همسایهها از درخت kd بازیابی میشوند و نتایج به k شبیهترین تصاویر در مجموعه آموزشی دسترسی دارند. اکثریت رای در بین برچسبهای کلاس تصاویر بازیابی شده، برچسب کلاس یک تصویر پرس و جو را برای همه متغیرها میدهد، و این برچسبها را میتوان برای ارزیابی کمی با برچسبهای مرجع مقایسه کرد.
برای همه آزمایشها، ما دقت کلی (OA) را گزارش میکنیم که درصد تصاویر طبقهبندی شده درست را در بین تمام تصاویر ارزیابیشده توصیف میکند. در این زمینه، OA متغیر m به طور انحصاری بر اساس تصاویر با برچسب کلاس شناخته شده برای متغیر m محاسبه می شود، با در نظر گرفتن این واقعیت که ممکن است برخی از حاشیه نویسی ها برای یک تصویر پرس و جو وجود نداشته باشد. همانطور که توزیع کلاس همه Mمتغیرهای دو مجموعه داده بسیار نامتعادل هستند، ما بیشتر میانگین امتیاز F1 را برای هر متغیر گزارش میکنیم. به عنوان مثال، میانگین حسابی تمام نمرات F1 کلاس خاص. امتیاز F1 مخصوص کلاس، میانگین هارمونیک دقت (نشان دهنده درصد پیش بینی های یک کلاس است که در واقع به آن کلاس تعلق دارد) و یادآوری (نشان دهنده درصد نمونه ها در هر کلاس در مرجع است که توسط CNN پیش بینی شده است). بنابراین، بر خلاف OA، میانگین نمرات F1 توسط کلاسهای غالب در مجموعه دادهها تعصب ندارند. همه این معیارهای ارزیابی به طور جداگانه برای اعتبار سنجی و مجموعه تست ارائه شده است.
۵٫۲٫ نتایج آزمایشها با استفاده از مجموعه داده SILKNOW
نتایج سری اول آزمایشها، انجام شده بر روی مجموعه داده SILKNOW، در جدول ۳ ، جدول ۴ و جدول ۵ آمده است. در حالی که جدول ۳ بر میانگین OAs و میانگین نمرات F1 در هر آزمایش تمرکز دارد، جدول ۴ بینش هایی را در مورد OAs در هر متغیر ارائه می دهد و جدول ۵ میانگین نمرات F1 را در هر متغیر ارائه می دهد.
۵٫۲٫۱٫ مشاهدات عمومی
نتایج در جدول ۳ اولین برداشت را از چگونگی تأثیر شرایط تلفات فردی بر عملکرد رویکرد ارائه شده برای بازیابی تصاویری که از نظر معنایی مشابه تصویر پرس و جو هستند، ارائه می دهد. آزمایشها و معیارهای ارزیابی مربوطه از سه گروه تشکیل شدهاند. گروه اول شامل آزمایشهایی است که منحصراً CNN را با بهینهسازی یکی از دو عبارت ضرر اصلی آموزش میدهند از دست دادن بازیابی تصویر ، گروه دوم شامل آزمایشهایی است که بر اساس ترکیبهای متفاوتی از عبارتهای فقدان تشکیل دهنده فقدان بازیابی تصویر است ، و گروه سوم همه انواع گروه دوم را با ضرر طبقه بندی ترکیب می کند . جای تعجب نیست که معیارهای بهدستآمده در آزمایشهای گروه اول نشان میدهند که آموزش مبتنی بر شباهت معنایی نتایج بهتری در ارزیابی با تمرکز بر جنبههای معنایی به همراه دارد. به طور متوسط، در ۶۱٫۲٪ موارد، اکثریت رای در میان k تصاویر بازیابی شده، برچسب کلاس صحیح را ارائه می دهد اگر برای آموزش استفاده می شود، که ۶٫۲٪ بیشتر از چیزی است که فقط با استفاده از شباهت رنگ می توان به دست آورد ( sem vs. co ). همچنین تفاوت نسبتا زیادی در میانگین نمرات F1 (5.2٪) وجود دارد. نتایج آزمایشهای گروه دوم نشان میدهد که ترکیب شباهت معنایی و رنگی ( sem + co ) همتراز با متغیر مبتنی بر تشابه معنایی است ( sem .) از نظر OA; تفاوت ۰٫۳٪ با توجه به اینکه انحراف استاندارد OA در مرتبه ۰٫۲٪ است معنی دار نیست. تفاوت در میانگین نمرات F1 کمی بیشتر است، اما باز هم از نظر آماری معنی دار نیست. جالب و تا حدودی شگفتانگیز، به نظر میرسد که گنجاندن از دست دادن شباهت خود تأثیر منفی قابلتوجهی بر نتایج در این گروه از آزمایشها دارد. در نهایت، گروه سوم آزمایش ها نشان می دهد که به طور متوسط، ترکیبی از از دست دادن بازیابی تصویر با از دست دادن طبقه بندی تصویر از همه گونه های گروه اول و دوم بهتر عمل می کند.
دو نوع بهترین از دست دادن، sem + C هستند که افت بازیابی معنایی تصویر را با از دست دادن طبقهبندی تصویر ترکیب میکنند، و sem + co + C ترکیبی از تلفات معنایی و بازیابی تصویر رنگی با از دست دادن طبقهبندی تصویر. تفاوت بین این دو متغیر (۰٫۲٪ در هر دو OA و میانگین امتیاز F1) ناچیز است. با پیشبینی صحیح برچسبهای کلاس تصاویر آزمایشی در ۶۳٫۹٪ موارد، واریانت sem + C از نوع متناظر خود بدون از دست دادن طبقهبندی بهتر عمل میکند ( sem) 2.7٪ در OA. از آنجایی که انحراف استاندارد OA ها در محدوده ۰٫۲٪ است، این بهبود قابل توجه در نظر گرفته می شود. میانگین امتیاز F1 حدود ۵٫۶٪ بهبود یافته است که همچنین با توجه به انحراف استاندارد حدود ۰٫۳٪ برای میانگین نمرات F1 در این آزمایش ها، بهبود قابل توجهی است. روند برای نوع نیز با در نظر گرفتن از دست دادن رنگ ( sem + co + C ) در مقایسه با واریانت sem مشابه است . بهبود در مقایسه با واریانت sem + co در OA کمی بزرگتر است زیرا آن نوع OA کمی بدتر از نوع sem داشت و از نظر میانگین امتیاز F1 (4.7٪) کمی کمتر است زیرا sem + co بهتر از sem عمل کرد.در آن متریک جالب توجه است که گنجاندن ضرر طبقهبندی تأثیر منفی از دست دادن شباهت خود را کاهش میدهد، اگرچه نمیتواند آن را به طور کامل جبران کند. از این تجزیه و تحلیل، میتوان نتیجه گرفت که گنجاندن از دست دادن طبقهبندی منجر به بهبود قابلتوجهی در میانگین عملکرد روش ما برای بازیابی تصاویری میشود که از لحاظ معنایی شبیه به تصویر پرس و جو هستند. در OA، بهبود در بهترین سناریو ۲٫۷٪ است. بهبود در میانگین امتیاز F1 بزرگتر است (۵٫۶٪)، که ما به عنوان اولین نشانه در نظر می گیریم که از دست دادن طبقه بندی به ویژه مشکلات مربوط به کلاس های کمتر ارائه شده را کاهش می دهد.
۵٫۲٫۲٫ تجزیه و تحلیل خاص متغیر
تجزیه و تحلیل دقیق تری از OA ها را می توان بر اساس جدول ۴ انجام داد که OA بدست آمده در مجموعه آزمون SILKNOW را در هر متغیر معنایی نشان می دهد. با مقایسه OAهای بهدستآمده از تک تک متغیرها، بدیهی است که کلاسهای برخی از متغیرها را میتوان بسیار بهتر از سایر متغیرها پیشبینی کرد. با در نظر گرفتن ساختار کلاس چهار متغیر، می توان استنباط کرد که OA های بالاتری را می توان برای متغیرهایی با کلاس های کمتر به دست آورد. مکان متغیر با ۱۷ کلاس کمترین دقت را به دست میآورد، در حالی که ماده متغیر تنها با سه کلاس بالاترین دقت را کسب میکند (حدود ۷۵ درصد) که حدود ۳۰ درصد بیشتر از مقادیر بهدستآمده برای مکان است. دو نوع sem + Cو sem + co + C منجر به بالاترین OA برای هر چهار متغیر می شود که با مقادیر میانگین در جدول ۳ مطابقت دارد . جدول ۴ نشان می دهد که مواد متغیر – یعنی چیزی که بهترین نتایج برای آن به دست می آید – به سختی تحت تأثیر تغییرات روش شناختی بین آزمایش ها قرار می گیرد. به طور خاص، هیچ تفاوتی در عملکرد بین آزمایشهای sem ، sem+C و sem+co+C وجود ندارد . همه آنها منجر به OA 75٪ می شوند. برای دو متغیر دیگر، به دلیل گنجاندن ضرر طبقهبندی، بهبود بیشتری وجود دارد. در همه موارد، انواع sem و sem + Cدستیابی به مقادیر مشابه OA؛ از جمله از دست دادن طبقه بندی منجر به بهبود OA 3.2٪ – ۳٫۸٪ می شود.
تجزیه و تحلیل میانگین نمرات F1 به ازای هر متغیر در جدول ۵ تأیید می کند که دو آزمایش sem + C و sem + co + C بالاترین معیارهای کیفیت را برای هر چهار متغیر دارند. مقایسه میانگین نمرات F1 به دست آمده در دو آزمایش برتر در جدول ۵ با OA های مربوطه در جدول ۴ ، تفاوت های زیادی در حدود ۱۰٪ ( زمان زمانی ) تا ۳۵٪ ( مواد)) قابل مشاهده است. این نشاندهنده مشکلات باقیمانده با کلاسهای کمنمایش است. با مقایسه میانگین نمرات F1 کلاسهای فردی در بهترین آزمایشها، وابستگی آشکاری از عملکرد به تعداد کلاسهایی که برای یک متغیر قابل تشخیص است وجود ندارد که بتوان دقت کلی را مشاهده کرد. حتی اگر کمترین امتیاز F1 تا ۲۹٫۱٪ هنوز برای مکان به دست می آید ، با بیشترین تعداد کلاس ها، بالاترین امتیاز تا ۵۵٫۰٪ برای تکنیک متغیر به دست می آید و به دنبال آن بازه زمانی به دست می آید.هر دو دارای شش کلاس هستند. یک دلیل احتمالی میتواند این باشد که تکنیکهای مختلف تولید پارچههای ابریشمی ممکن است منجر به بزرگترین تغییرات بصری در تصاویر شود، و بنابراین ممکن است تشخیص کلاسهای جداگانه آسانتر باشد.این تکنیک با استفاده از نمایش های تصویری آموخته شده توسط CNN آموزش دیده تولید شده است. با مقایسه انواع با بهترین عملکرد ( sem + C و sem + co + C ) با همتایان مربوطه خود، بدون در نظر گرفتن ضرر طبقهبندی ( sem و sem + co )، بیشترین تفاوت در میانگین امتیاز F1 به ۸٫۴% میرسد ( تکنیک ). برای سایر متغیرها، بهبود بین ۳٫۹٪ ( ماده ) و ۶٫۳٪ متغیر است. مکان متغیر است.، در همه موارد با توجه به انحراف استاندارد میانگین امتیاز F1 در مرتبه ۰٫۵٪ قابل توجه است. بنابراین، تجزیه و تحلیل تأثیر مثبت قابلتوجه از دست دادن طبقهبندی کمکی را بر توانایی روش ما برای بازیابی تصاویر با ویژگیهای معنایی مشابه با ویژگیهای تصویر جستجو تأیید میکند. از آنجایی که بهبود میانگین نمرات F1 بزرگتر از بهبود در OAs است، ما معتقدیم که این عمدتاً به دلیل مشارکت مثبت در تمایز طبقات کم نمایندگی است، اگرچه برخی مشکلات همچنان باقی هستند، همانطور که با شکاف بین OA و میانگین F1 نشان می دهد. امتیازات
به طور خلاصه، آزمایشهای اولین سری آزمایشی نشان میدهند که ترکیب از دست دادن شباهت معنایی با تلفات مربوط به مفاهیم مشابه دیگر – یعنی شباهت رنگ و خود شباهت – توانایی شبکه را برای تولید توصیفگرهایی که میتوان از آنها استفاده کرد، بهبود نمیبخشد. بازیابی تصاویری که دارای ویژگی های معنایی مشابه با تصویر پرس و جو هستند. در مقابل، افزودن یک ضرر طبقه بندی اضافی به طور قابل توجهی هم میانگین نمرات F1 و هم OAs را بهبود می بخشد.
۵٫۳٫ قابلیت انتقال رویکرد: ارزیابی در مجموعه داده ویکی آرت
نتایج سری دوم آزمایشها، بر اساس مجموعه دادههای WikiArt با استفاده از بهترین مدل مدل از نظر امتیاز F1 مشخصشده در بخش قبل و همچنین نوع با استفاده از تمام عبارات ضرر sem + co + slf + C ، قابل یافتن است. در جدول ۶ . جدول هم اطلاعاتی در مورد درصد تصاویر طبقه بندی شده صحیح در هر متغیر (دقت کلی) و هم میانگین امتیازات F1 ویژه متغیر را ارائه می دهد. با مقایسه دو نوع مدل CNN بررسی شده، هر دو امتیاز OAs و F1 برای طبقهبندی kNN با توصیفگرهای تولید شده توسط مدل sem + C بالاتر هستند . در حالی که میانگین OA در تمام متغیرها برای sem + C ۲٫۸٪ بیشتر از sem + co + slf + C است.، OA های خاص متغیر ۲٫۳٪ برای ژانر ، ۲٫۴٪ برای سبک و ۳٫۸٪ برای هنرمند متفاوت است . رفتار مشابهی را می توان برای نمرات F1 مشاهده کرد: میانگین امتیاز برای sem + C ۳٫۷٪ بیشتر است ، که در آن امتیاز ژانر ۲٫۱٪ بهبود یافته است، امتیاز هنرمند ۴٫۱٪ بهبود یافته است، و سبک ۴٫۲٪ به دست می آید. امتیاز F1 بالاتر
با مقایسه نتایج تجربی در مجموعه داده WikiArt نشان داده شده در جدول ۶ با نتایج موجود در مجموعه داده SILKNOW (به جدول ۳ مراجعه کنید )، تفاوت مدل sem + C بهترین عملکرد را در هر دو مجموعه داده دارد. در حالی که میانگین OA در مجموعه آزمایشی ۶۳٫۹٪ برای مجموعه داده SILKNOW 8.1٪ بیشتر از آنچه در مجموعه داده WikiArt به دست آمده است، امتیازات F1 در مجموعه داده WikiArt بالاتر است. میانگین امتیاز F1 51.1٪ در مجموعه داده WikiArt، ۱۲٫۲٪ بیشتر از امتیاز در مجموعه داده SILKNOW است. این یک رفتار تا حدودی تعجب آور است، زیرا می توان انتظار داشت که امتیازات F1 در مجموعه داده SILKNOW با اعمال فراپارامترهای آموزشی حاصل از تنظیم در مجموعه داده SILKNOW بالاتر باشد. یک دلیل احتمالی می تواند این باشد که کلاس های متغیرهای ویکی آرتتمایز سبک ، ژانر و هنرمند نسبت به متغیرهای SILKNOW آسانتر است.
در مقابل، این واقعیت که بالاترین معیارهای کیفیت برای sem + C به دست آمد ، قابل انتظار بود. طبقهبندی k -NN که برای ارزیابی عملکرد بازیابی تصویر استفاده میشود، جنبههای معنایی توصیفگرهای آموختهشده را منحصراً در نظر میگیرد، و هم از دست دادن شباهت معنایی و هم از دست دادن طبقهبندی کمکی، هدف تولید یک خوشهبندی معنادار معنایی در فضای توصیفگر است. انواع مدل با در نظر گرفتن شباهت رنگ و خود شباهت علاوه بر آن، ممکن است بهترین توصیف کننده ها را برای بازیابی تصویر از دیدگاه کاربر ارائه دهند، زیرا فرض می شود نتایج هم از نظر بصری و هم از نظر معنایی مشابه هستند. با این حال، این جنبههای نتایج مستلزم ارزیابی دستی توسط کارشناسان میباشند. ۲۱ ] داشت] که علاوه بر ذهنی بودن، از حوصله این نوشتار خارج است. بر این اساس، مزایای حاصل از در نظر گرفتن مفاهیم شباهت بصری در آموزش را نمی توان به طور تجربی با استراتژی ارزیابی ارائه شده منعکس کرد. در هر صورت، ما نتایج را نشان میدهد که روش ما واقعاً میتواند به دامنه دیگری منتقل شود و این توانایی را دارد که تصاویری با ویژگیهای مشابه تصاویر پرس و جو را بازیابی کند، حتی اگر کار بیشتر شامل تنظیم فراپارامتر خاص کار باشد. ممکن است لازم باشد که دقت کلی حاصل را به سطحی مشابه با آنچه برای مجموعه داده SILKNOW به دست آمده است، برساند.
۵٫۴٫ ارزیابی کیفی نتایج
علاوه بر نتایج کمی ارائه شده در بخش های قبلی، این بخش حاوی برخی از نتایج کیفی روش بازیابی تصویر پیشنهادی برای هر دو مجموعه داده مورد استفاده در ارزیابی است. نمونه هایی برای تصاویر پرس و جو و همچنین ۱۰ تصویر مشابه که با روش ما از پایگاه داده SILKNOW بازیابی شده اند در شکل ۵ نشان داده شده است. شکل ۶ دو نمونه بر اساس مجموعه داده WikiArt را نشان می دهد. همه این مثالها از مدل مدل sem + C حاصل میشوند که از نظر ارزیابی کمی بهترین نمونه است.
اگرچه جنبه های معنایی منحصراً مصنوعات به تصویر کشیده شده در فرآیند آموزش در نظر گرفته شد، به نظر می رسد نتایج از نظر بصری همگن هستند. در نمونه های مجموعه داده SILKNOW ( شکل ۵ )، هر دو رنگ و الگوهای تصویر پرس و جو و تصاویر بازیابی شده عمدتاً مشابه هستند. شکل ۵ الف شامل پارچه هایی با رنگ روشن با طرح راه راه است و شکل ۵ ب پارچه هایی با رنگ های خاکی با الگوی زینتی دانه ریز را نشان می دهد. به طور مشابه، نمونههای بازیابی تصویر از مجموعه داده WikiArt عمدتاً دارای رنگهایی هستند که با تصاویر درخواستی مطابقت دارند و محتوای مشابهی را نشان میدهند. شکل ۶ الف شامل تصاویری است که رنگ های سبز و قهوه ای بر آنها غالب است و مناظر را به تصویر می کشد. شکل ۶b بیشتر تصاویری از تصاویر طبیعت بی جان را به رنگ قرمز و قهوه ای نشان می دهد. این مثالها همچنین نشان میدهد که معناشناسی یک مصنوع به تصویر کشیده شده و ظاهر آن تا حدی مرتبط است.
۶٫ نتیجه گیری و چشم انداز
ما رویکردی برای یادگیری توصیفگر مبتنی بر CNN ارائه کردهایم تا توصیفکنندههای تصویری مناسب برای بازیابی تصویر ابریشم در زمینه حفظ میراث ابریشم اروپایی بدست آوریم. آموزش CNN هم مفاهیم شباهت بصری و هم مفاهیم شباهت معنایی را در نظر می گیرد، جایی که داده های آموزشی را می توان به طور خودکار با بهره برداری از حاشیه نویسی های مربوط به تصاویر در یک مجموعه دیجیتال تولید کرد. در این زمینه، حاشیه نویسی اختصاص داده شده به یک تصویر لازم نیست کامل باشد تا به تصویر اجازه دهد تا به آموزش کمک کند، که با توجه به مجموعه داده های دنیای واقعی از اهمیت ویژه ای برخوردار است. علاوه بر مفاهیم شباهت که امکان تولید داده های آموزشی را بدون برچسب گذاری دستی فراهم می کند، ما ادغام یک از دست دادن طبقهبندی چند وظیفهای کمکی را با هدف پشتیبانی از خوشهبندی توصیفگرهای آموخته شده با توجه به ویژگیهای اشیاء نشاندادهشده پیشنهاد کردیم. آزمایشهای جامع امکان تجزیه و تحلیل تأثیر مؤلفههای از دست دادن فردی را بر توانایی توصیفگرها برای انعکاس شباهت یک تصویر پرس و جو و تصاویر بازیابی شده از نظر حاشیهنویسی معنایی میدهد. در آزمایشات،کطبقهبندی NN برای امکان ارزیابی کمی بدون نیاز به مرجعی که نتایج بازیابی بهینه را برای مجموعهای از تصاویر آزمایشی یا وضعیت شباهت شناخته شده برای هر جفت تصویر تعریف میکند، انجام شد. ارزیابی بر اساس مجموعه داده ای متشکل از تصاویر پارچه های ابریشمی نشان می دهد که استفاده از افت طبقه بندی کمکی در طول تمرین در واقع عملکرد را تا ۳٫۳ درصد از نظر دقت کلی ویژه متغیر و تا ۸٫۴ درصد از نظر متغیر- بهبود می بخشد. امتیازات خاص F1 مشاهده شد که بیشترین پیشرفت ها برای متغیرهایی با توزیع کلاس نامتعادل به دست آمد. آزمایشهای بیشتر روی مجموعه داده WikiArt قابلیت انتقال رویکرد ما به سایر مجموعههای دیجیتالی را نشان داد، حتی اگر در زمینه جستجو در پایگاههای اطلاعاتی ابریشمی توسعه یافته بود.
کار آینده می تواند بر روی تغییرات مجموعه داده برای بررسی بیشتر قابلیت انتقال روش پیشنهادی تمرکز کند یا نکاتی را برای اصلاحات مورد نیاز رویکرد ارائه دهد. از آنجایی که رویکرد یادگیری توصیفگر ارائه شده بر تصاویر با حاشیه نویسی تکیه می کند که کلاس های حداقل یک متغیر معنایی را نشان می دهد، از نظر تئوری می توان آن را برای هر مجموعه داده یا مجموعه دیجیتالی متشکل از برچسب های تصویر و کلاس یک یا چند متغیر اعمال کرد. بنابراین، تحلیل رفتار آن بر روی دیگر مجموعه دادههای میراث فرهنگی، به عنوان مثال، Art500k [ ۱۷ ] یا OmniArt [ ۴۳ ]، که هر دو متشکل از تصاویری از آثار هنری از قرنهای مختلف هستند، در سایر مجموعههای داده مرتبط با پارچهها، به عنوان مثال، جالب خواهد بود.DeepFashion [ ۶۷]، متشکل از تصاویری که لباسها را نشان میدهند، و در نهایت، روی مجموعههای دادهای که تصاویری را از یک حوزه کاملاً متفاوت نشان میدهند، به عنوان مثال، CelebA [ ۶۸ ]، متشکل از تصاویر چهره با ویژگیهای چهره متفاوت. تا آنجا که به داده های ویکی آرت مربوط می شود، تنظیم هایپرپارامتر اضافی ممکن است نتایج را فراتر از آنچه در این مقاله نشان داده شده است بهبود بخشد.
از نقطه نظر روش شناختی، بررسی تلفات کمکی بیشتر به منظور بهبود رفتار خوشهبندی جالب خواهد بود. این می تواند شامل تلفاتی باشد که مستقیماً به خوشه بندی در فضای توصیفگر می پردازد، مانند افت کروی یا از دست دادن مرکز ارائه شده در [ ۳۵ ]. متناوباً، میتوان تنوعی از از دست دادن خود شباهت پیشنهادی را مورد بررسی قرار داد، بهعنوان مثال، رویکرد یادگیری بازنمایی در [ ۶۹ ]، که توصیفگرها را مجبور میکند نسبت به ظواهر مختلف یک شی در یک تصویر تغییر ناپذیر باشند. در مقابل از دست دادن خود شباهت ارائه شده در این مقاله، که مستقیماً توصیفگرهای دو تصویر از یک شیء مشابه را مجبور میکند، ر. [ ۶۹] به شبکه اجازه می دهد تا نقشه برداری بین توصیفگرها را بیاموزد. یک امکان دیگر این است که نه تنها محدودیتهای بیشتر در توصیفکنندهها با فرمولبندی محدودیتها در یک تابع از دست دادن، بلکه برای بهرهبرداری از اطلاعات بیشتر در مورد اشیاء به تصویر کشیده شده با در نظر گرفتن متون توصیفی اختصاص داده شده به تصاویر، باشد. مجموعه داده های ممکن برای توسعه و آزمایش چنین رویکردهایی می تواند از نمودار دانش SILKNOW [ ۱ ]، مانند مجموعه داده در کار حاضر، یا سایر مجموعه داده های چندوجهی با هر دو حاشیه نویسی برای متغیرهای معنایی چندگانه و همچنین متون توصیفی تولید شود. به عنوان مثال، SemArt [ ۷۰ ].
علاوه بر این، یک ارزیابی با تمرکز دیگرنتایج روش بازیابی تصویر ارائه شده جالب خواهد بود. چنین ارزیابی می تواند با هدف به دست آوردن تصوری از شباهت بصری تصاویر بازیابی شده باشد، که احتمالاً نیاز به ارزیابی تعاملی توسط متخصصان حوزه دارد. یکی دیگر از اهداف قابل تصور ارزیابی بیشتر می تواند تجزیه و تحلیل تأثیر تلفات شباهت بر طبقه بندی تصویر باشد. به جای مدیریت از دست دادن طبقه بندی به عنوان یک ضرر کمکی، یک یا چند تلفات شباهت را می توان با توجه به توانایی آنها در بهبود طبقه بندی تصویر تحلیل کرد، جایی که تلفات شباهت به عنوان تلفات کمکی برای طبقه بندی تصویر عمل می کند. یک انگیزه قوی برای چنین آزمایشهایی مشاهده ما این است که ترکیب یادگیری توصیفگر و طبقهبندی تصویر در طول آموزش، توانایی توصیفگرهای آموختهشده را برای نشان دادن ویژگیهای معنایی، عمدتاً متغیرهایی با کلاسهای زیاد و ساختارهای کلاس نامتعادل در زمان آزمون، بهبود میبخشد. در این زمینه، مقایسه استفاده از تلفات شباهت کمکی با سایر استراتژیهایی که هدفشان حل مشکلات عدم تعادل طبقاتی در طبقهبندی تصویر است، جالب خواهد بود.