۱٫ مقدمه
در سالهای اخیر، تعداد زیادی از نقاط مورد علاقه (POI) در پایگاههای اطلاعاتی جغرافیایی گنجانده شده است [
۱ ]. شبکه های اجتماعی مانند فیس بوک میزبان صفحات بسیاری از مشاغل هستند و پست ها حاوی مجموعه ای از مشاغل هستند. شرکت های مسافرتی مانند تریپ ادوایزر میزبان مجموعه ای از جاذبه های گردشگری هستند. همه این POI ها با مکان های جغرافیایی خاصی مرتبط هستند. ارائه دهندگان خدمات نقشه (مانند Google Maps، Tomtom، Here Maps) مجموعه داده های خود را، اغلب با کمک جمع سپاری، گسترش و غنی می کنند (به عنوان مثال، ویژگی «افزودن مکان گمشده به Google Maps» گوگل (
https://support.google.com /maps/answer/6320846(دسترسی در ۱۰ دسامبر ۲۰۲۱)). با گسترش ویکیپدیا، تعداد مقالات مربوط به موجودات جغرافیایی که مختصات را جاسازی میکنند نیز افزایش مییابد. به طور مشابه، نمودارهای دانش (KGs) مانند Wikidata، DBpedia و YAGO نیز شامل تعداد فزایندهای از موجودیتهای جغرافیایی با مختصات هستند [
۲ ]. این KG ها همچنین حاوی اطلاعات تکمیلی هستند که ممکن است برای کاربردهای نقشه ها ارزشمند باشند.
تراز کردن نهادهای جغرافیایی از منابع مختلف به اطلاعات کامل تر در مورد یک نهاد جغرافیایی معین کمک می کند و با افزودن موجودیت های گمشده، مجموعه داده های موجود را به روز می کند. متأسفانه، تطبیق یک موجود جغرافیایی مشابه در مجموعه داده های منبع مختلف دشوار است زیرا هیچ شناسه جهانی وجود ندارد [
۳ ،
۴ ].
یک چالش این است که مجموعه دادههای جغرافیایی مختلف اغلب دارای ناسازگاریها، افزونگیها، ابهامات و تضادها هستند [
۵ ]، از جمله تفاوت در مجموعه ویژگیهای موجودیت، قالبها و مقادیر آنها. اگرچه نهادهای جغرافیایی معمولاً دارای ویژگیهایی مانند
برچسب ،
دسته (
نوع )،
آدرس و
مختصات هستند.، این ویژگی ها می توانند در بین مجموعه داده ها تفاوت داشته باشند. به طور خاص، مختصات ممکن است سطوح مختلفی از دقت داشته باشند، آدرسها را میتوان در قالبهای مختلف ذخیره کرد، برچسبها میتوانند به زبانهای مختلف باشند و سطوح مشخصی متفاوتی داشته باشند، و ممکن است استفاده ناسازگاری از اختصارات و کلمات اختصاری وجود داشته باشد. به عنوان مثال، یک آدرس داده شده ممکن است ”
۲ Semple St., Edinburgh, Midlothian, Scotland, UK ” در یک مجموعه داده و ”
۲ Semple Street, Edinburgh, United Kingdom ” در دیگری باشد. یک برچسب ممکن است ”
باغ وحش ادینبورگ ” یا به سادگی ”
باغ وحش ” باشد، زیرا اطلاعات شهر ممکن است قبلاً در آدرس و مختصات ذخیره شده باشد. در این زمینه، نشانه «
ادینبورگ” هنگام اندازه گیری شباهت برچسب ها مهم نیست. با این حال، هنگام اندازه گیری شباهت بین ”
دوک ادینبورگ میخانه ” و ”
دوک ولینگتون پاب “، همان نشانه بسیار مرتبط است.
یکی دیگر از منابع اصلی تضاد این واقعیت است که مجموعه داده های مختلف اغلب از دسته ها (انواع) متفاوتی از موجودیت های جغرافیایی استفاده می کنند. این انواع اغلب در سلسله مراتبی که می توانند بسیار متفاوت باشند، با درجات مختلفی از دانه بندی، ساختارهای سلسله مراتبی و نام انواع ساختار یافته اند. تطبیق سلسله مراتب نوع مجموعه داده های مختلف می تواند یک فرآیند چالش برانگیز باشد، به خصوص زمانی که برخی از سلسله مراتب ها بسیار بزرگ هستند. بازدارندگی دستی.
همه تفاوت های ذکر شده در بالا چالش های عمده ای را برای مشکل هم ترازی موجودیت جغرافیایی ایجاد می کند. بهعلاوه، مشکل همترازی موجودیت میتواند موارد استفاده آفلاین و آنلاین داشته باشد که چالشهای بیشتری برای خود ایجاد میکند. در حالت آفلاین، دو مجموعه داده بزرگ باید در مقیاس جهانی با یکدیگر مطابقت داده شوند. یک مثال عملی خوب از چنین موردی زمانی است که یک ارائهدهنده خدمات مکان میخواهد مجموعه دادههای POI خود را با ترکیب مجموعه دادهای که از یک ارائهدهنده نقشه خارجی به دست آمده است، گسترش دهد. در این راهاندازی، ممکن است بین دو مجموعه داده همپوشانی وجود داشته باشد و همه موجودیتهای هر یک از مجموعههای داده قابل تطبیق نیستند. همچنین متداول است که مجموعه داده هایی که تراز می شوند ناهمگن هستند و دارای سطوح مختلف ناقصی هستند. برخی از تفاوت های اصلی بین مجموعه داده ها می تواند در سلسله مراتب نوع آنها، برچسب ها،
علاوه بر این، یافتن مسابقات در مقیاس جهانی می تواند چالش برانگیز باشد. در این سناریو، مجموعه دادهها ممکن است به راحتی دهها یا صدها میلیون موجودیت داشته باشند، که منجر به چهار میلیارد جفت تطبیق احتمالی میشود. پارتیشن بندی فضایی یک راه مفید برای مقابله با این مشکل فراهم می کند، زیرا موجودیت ها را می توان از نظر جغرافیایی به پارتیشن هایی با اندازه های قابل مدیریت جدا کرد. با این حال، پارتیشن بندی فضایی با چالش هایی مواجه می شود، زیرا مختصات ممکن است وجود نداشته باشند یا دقیق نباشند، و جعبه های مرزی (bboxes) ممکن است در دسترس نباشند. بسته به نوع موجودیت، فاصله معمولی بین مختصات موجودیت های منطبق می تواند از چند متر (مثلاً رستوران ها) تا چند کیلومتر (مثلاً شهرها) متغیر باشد.
تراز نهادی نه تنها برای غنی سازی داده های آفلاین بلکه برای تطبیق آنلاین نیز مورد نیاز است. در این مورد، ما باید یک موجودیت جدید را با موجودیت های جغرافیایی موجود در یک مجموعه داده معین مطابقت دهیم. یک برنامه معمول برای این مورد استفاده، افزودن موجودیتهای تولید شده توسط کاربر (مثلاً مالک کسبوکار) به مجموعه دادهها است، که در آن لازم است قبل از افزودن موجودیت جدید، بررسی شود که آیا موجودیت جدید قبلاً وجود دارد یا خیر، تا از تکراری شدن جلوگیری شود. یکی دیگر از برنامههای کاربردی جستجوی موجودیتهای POI است که در آن کاربر ممکن است اطلاعاتی را ارائه کند که چهار ویژگی موجودیت جغرافیایی جستجو شده را پوشش میدهد. مورد دوم باید به POI های موجود در سرویس جستجو نگاشت شود تا بتواند درخواست کاربر را برآورده کند. در هر دو مورد، چالشهای ایجاد شده توسط تفاوتهای بین مقادیر ویژگیهای تولید شده توسط کاربر و مجموعهای از موجودیتهای مورد جستجو مشابه چالشهایی است که از همترازی آفلاین مجموعه دادههای جغرافیایی ناهمگن است. با این حال، تاخیر کم یک نیاز حیاتی در مورد آنلاین است، زیرا کاربران انتظار دارند نتایج در کسری از ثانیه برگردانده شوند.
در این مقاله، ما بر روی امتیازدهی تراز و اطمینان از مقیاس پذیری در مورد آفلاین تمرکز می کنیم.
با این حال، همانطور که در بخش ۵٫۳ مورد بحث قرار گرفت، این رویکرد همچنین میتواند برای پشتیبانی از پرونده آنلاین تطبیق داده شود . مشارکت های این مقاله به شرح زیر است.
-
ما یک سیستم همترازی جدید را طراحی کردیم که از ویژگیهای اصلی موجودیتهای جغرافیایی استفاده میکند: برچسب ، دسته (یا نوع )، آدرس و مختصات . GLEAN ابتدا معیارهای شباهت فردی را برای هر یک از ویژگی ها محاسبه می کند، سپس آنها را در یک معیار تشابه نهایی برای جفت موجودیت های بررسی شده ترکیب می کند. سپس این شباهت هم ترازی با یک آستانه برای تصمیم گیری در مورد تطابق مقایسه می شود.
-
ما استفاده از ارتباط بافت محلی نشانه ها را با رمزگذارهای جملات چند زبانه ترکیب کردیم تا شباهت مؤلفه برچسب را محاسبه کنیم.
-
ما از روشهای جاسازی بدون نظارت و تنزل نوع برای امتیازدهی مولفههای نوع استفاده کردیم.
-
ما یک پارتیشن بندی حاشیه سازگار مقیاس پذیر در مجموعه داده های موجودیت های جغرافیایی در مقیاس بزرگ به منظور بهبود مقیاس پذیری سیستم تراز خود اعمال کردیم.
-
ما تأثیر مشارکت خود را در امتیاز شباهت همترازی و مقیاسپذیری رویکرد تطبیق آفلاین خود ارزیابی کردیم.
باقی مانده از مقاله به شرح زیر سازماندهی شده است.
بخش ۲ کارهای مرتبط را مورد بحث قرار می دهد.
بخش ۳ مسئله تحقیقی را که در این مقاله به دنبال حل آن هستیم، معرفی می کند.
بخش ۴ اجزای GLEAN را شرح می دهد.
بخش ۵ معماری کلی GLEAN را توصیف می کند که اجزای آن را در یک سیستم واحد جمع می کند.
بخش ۶ نتایج ارزیابی عملکرد را بر اساس اجرای فرسایش در رابطه با اجزای فردی پیشنهادی ما ارائه میکند. در نهایت،
بخش ۷ مشارکت های مقاله را جمع بندی می کند و آن را برای جهت گیری های تحقیقاتی آینده باز می کند.
۲٫ کارهای مرتبط
آثار بسیار کمی در مورد همسویی نهادهای جغرافیایی از منابع ناهمگن وجود دارد. همانطور که توسط دنگ و همکاران توضیح داده شده است. [
۶ ]، مشکل هم ترازی موجودیت جغرافیایی به سه حوزه اصلی تقسیم شده است. حوزه اول بر ویژگی های هندسی یا مکانی داده ها تمرکز دارد [
۴ ]. ناحیه دوم ویژگی های توصیفی و سایر ویژگی های غیر مکانی را هدف قرار می دهد [
۷ ،
۸ ]. ناحیه سوم، که این کار بخشی از آن است، هر دو چارچوب ویژگی فضایی و غیر مکانی را ترکیب می کند. در مورد ما، برچسب، آدرس و دسته (نوع) را به عنوان ویژگی های غیر مکانی و مختصات را به عنوان ویژگی های فضایی در نظر می گیریم.
صفرا و همکاران [
۹ ] یکی از اولین رویکردها را پیشنهاد کرد که روشهای موجود را برای تطبیق فقط مکان برای ترکیب ویژگیهای مکانی و غیرمکانی گسترش میدهد. شفلر و همکاران [
۳ ] از ویژگیهای فضایی بهعنوان یک فیلتر اساسی استفاده کرد و متعاقباً برچسبهای موجودیت را برای مطابقت با POI از مجموعه دادههای شبکه اجتماعی ترکیب کرد. مک کنزی و همکاران [
۱۰ ] از مدلهای چند ویژگی وزندار برای یافتن ترازهای موجودیت استفاده کرد: وزنها با استفاده از رگرسیون لجستیک دو جملهای تخصیص داده میشوند. لیو و همکاران [
۱۱ ] یک شباهت فضایی-متنی top-k را برای یافتن محتمل ترین جفت ترازهای نامزد پیشنهاد کرد. نواک و همکاران [
۱۲] یک نمودار با گرههایی که نشاندهنده POI هستند و یالهایی که همترازیهای احتمالی را نشان میدهند، ایجاد کرد و استراتژیهای تطبیق مبتنی بر نمودار را برای حل مشکل تطبیق تضاد دادههای POI ابداع کرد. پورویس و همکاران رویکرد [
۱۳ ] با استفاده از ترکیب خطی از ویژگیهای برچسب، نوع و مختصات از طریق آنتروپی اطلاعات، نمونهها را مطابقت داد.
لو و همکاران [
۱۴ ] یک چارچوب کامل ترکیبی POI، از ارائه داده تا تأیید داده ها را پیشنهاد کرد. آنها همچنین از اطلاعات ویژگی های POI برای مطابقت با POI ها استفاده کردند. با این حال، این چارچوب ابتدا با نگاشت طبقه بندی انواع قبل از مقایسه POI آغاز شد. این با این فرض انجام می شود که طبقه بندی انواع از منابع داده های مختلف سازگار و بدون نویز هستند. علاوه بر این، اگرچه Low و همکاران. [
۱۴] ادعا کرد که در مقیاس بزرگ از چارچوب ترکیبی خود استفاده می کند، حداکثر مقیاس مجموعه داده استفاده شده از ۱۲۰۰۰ POI تجاوز نمی کند. محدودیت مقیاس پذیری عمدتاً به دلیل مداخله دستی متخصصان انسانی در مرحله تأیید است. در نهایت، این کار به مسائل مربوط به چند زبانه بودن برچسب ها یا ارتباط بافت محلی نشانه ها پرداخت.
همچنین تلاش هایی برای همسویی نهادهای جغرافیایی در جامعه داده های پیوندی صورت گرفته است. SLIPO [
۱۵ ] یک گردش کار یکپارچه سازی داده را پیشنهاد کرد، که شامل یک جزء ترکیبی بر اساس انطباق توابع شباهت خاص POI Fagi [
۱۶ ] است. این رویکرد بر دادههای رابطهای موجود متکی بود، اما جزئیاتی را در مورد تابع امتیازدهی همترازی ارائه نکرد و به چالشهای خاص تراز کردن موجودیتهای جغرافیایی از منابع داده ناهمگن اشاره نکرد.
یو و همکاران [
۱۷ ] هستی شناسی های مورد استفاده در زبان هستی شناسی وب ۲ (OWL-2) (
https://www.w3.org/TR/owl2-overview/(در ۱۰ دسامبر ۲۰۲۱ قابل دسترسی است)) و Description Logic (DL) برای ایجاد چارچوب ترکیبی داده های خود. هستی شناسی برای نمایش مجموعه داده های فضایی و هندسه ها و توپولوژی های مربوطه استفاده شد. DL برای اجرای قوانین خط مشی مورد استفاده قرار گرفت، که یا از داده ها و/یا اسناد پشتیبان استخراج شده بودند یا از کارشناسان آن منطقه تهیه شده بودند. یک مکانیسم استدلال پس از فیلتر کردن POI بر اساس پروکسی مکان و شباهت آدرس اعمال شد. مرحله استدلال هسته اصلی این چارچوب است و برای ساختن قوانین و ترتیب اجرای آنها به منابع زیادی تکیه کرده است. اگرچه این ترکیب خودکار داده ها را فراهم می کند، اما به شدت به انواع مختلف دانش به شرح زیر بستگی دارد. منشأ داده و پیش پردازش آن ایده ای در مورد صحت آن ارائه می دهد. قوانین کسب و کار نیازهای کاربر را از نظر طراحی پایگاه داده را در بر می گیرد. روش های آماری برای تصمیم گیری در مورد شباهت فضایی POI ها صرفا بر اساس مختصات آنها استفاده شد. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود.
نهاری و همکاران [
۱۸ ] یک معیار تشابه برای تفکیک موجودیت فضایی بر اساس مدل دانه بندی داده ها پیشنهاد کرد. دانه بندی بر اساس تقسیمات اداری یا ویژگی های جغرافیای طبیعی بود. اندازهگیری تشابه و روشهای مسدود کردن آنها بر روابط تقسیم اداری و ماهیت سلسله مراتبی مدل دانهبندی تکیه داشت. از سوی دیگر، رویکرد ما کاملاً مستقل از چنین ساختارهایی است و میتواند بر روی هر مجموعه داده اعمال شود، تا زمانی که شامل اجزای لازم (یعنی مختصات) باشد.
PlacERN [
۱۹ ] از یک رویکرد عصبی برای محاسبه شباهت بین یک جفت موجودیت جغرافیایی استفاده کرد که شامل همان چهار مؤلفه تحت پوشش در این مقاله بود. آنها از گسسته سازی استفاده کردند [
۲۰] از فاصله بین یک جفت یا مختصات به عنوان جاسازی موقعیت جغرافیایی. برای رمزگذاری آدرس و برچسب، آنها از جاسازی کلمات و کاراکترهای جداگانه استفاده کردند. برای رمزگذاری دستهها، آنها به سادگی از جاسازیهای دستهبندی با مجموع جاسازیهای کلمات که نام دسته را تشکیل میدهند، استفاده کردند. تمام تعبیههای رمزگذاریشده همه مؤلفهها در نهایت با استفاده از یک ژنراتور به اصطلاح میل ترکیبی و به دنبال آن یک پرسپترون چند لایه، که امتیاز شباهت را به دست میدهد، ترکیب میشوند. در حالی که این رویکرد راهحلهای جالبی را از نظر ترکیب اجزای مختلف با هم در یک معیار تشابه ارائه میدهد، به جفتهای مشروح زیادی از موجودیتهای منطبق و غیر منطبق برای آموزش مدل نیاز دارد. این یک محدودیت قوی در بسیاری از تنظیمات، از جمله تنظیمات ما است. از سوی دیگر، رویکرد ما میتواند با نظارت کم یا بدون نظارت، همترازی ایجاد کند. علاوه بر این، معیارهای برچسب و آدرس آنها، ارتباط محلی توکنها را در نظر نمیگرفت، زیرا شبکه فقط فاصله جفتی بین موجودیتها را به عنوان ورودی جغرافیایی در نظر گرفت. علاوه بر این، استفاده از جاسازی نام دسته به تنهایی برای شباهت نوع نمی تواند به اندازه کافی سلسله مراتب نوع بسیار ناهمگن را مدیریت کند، به ویژه در مواردی که دو سلسله مراتب دارای سطوح بسیار متفاوتی از دانه بندی هستند که نیاز به نگاشت های ۱-N زیادی دارند.
سهگل و همکاران [
۲۱ ] روشی را برای حل و فصل نهادهای جغرافیایی پیشنهاد کرد که از ویژگیهای برچسب، مختصات و نوع (اما بدون آدرس) استفاده میکرد. این ویژگیها در یک معیار تشابه ترکیبی قرار گرفتند. رویکرد هر مؤلفه نسبتاً ساده است، با استفاده از: (۱) شباهتهای جاکارد و جارو-وینکلر برای برچسب، (۲) فاصله معکوس برای مختصات، و (۳) آمار در مورد همزمانی جفتهای نوع در یک تمرین. داده برای نوع نمرات با یک طبقه بندی ترکیب شدند (لجستیک رگرسیون، پرسپترون رای، و SVM) که یک مقدار باینری تولید می کند که نشان می دهد موجودیت ها مطابقت دارند یا نه. یکی از محدودیت های این رویکرد این است که نیاز به وجود داده های آموزشی دارد که در بسیاری از موارد در دسترس نیستند و ساخت آن می تواند بسیار پرهزینه باشد.
اخیراً، ر. [
۶ ] رویکردی را پیشنهاد کرد که بر مؤلفههای مشخصه یکسانی متکی است، اما علاوه بر این از معیاری برای مؤلفه آدرس پشتیبانی میکند. به طور کلی، مؤلفه برچسب از فاصله ویرایش نرمال شده Levenshtein استفاده می کند. مولفه مختصات مشابه سهگل و همکاران بود. [
۲۱ ] اما از معکوس فاصله استفاده کرد که به یک تابع نمایی متصل شده بود تا اطمینان حاصل شود که در محدوده بین ۰ و ۱ قرار می گیرد. یک معیار تشابه بر اساس سطوح سلسله مراتبی گره های تطبیق ابداع شد. جزء آدرس شباهت کسینوس بین بردارهای TF-IDF هر آدرس را نشان می دهد.
کار اخیر دیگر [
۲۲ ] نیز بر همان چهار مؤلفه ویژگی [
۶ ] تکیه داشت. معیارهای شباهت اجزای برچسب، مختصات و آدرس مشابه هستند اما چند تفاوت وجود دارد. مؤلفه برچسب از برچسب گذاری نقش معنایی (SRL) برای فیلتر کردن نشانه های نامربوط قبل از محاسبه شباهت برچسب استفاده می کند. مانند [
۶ ]، مؤلفه مختصات نیز معیارهای ویژه ای برای اشیاء خط و ناحیه داشت. مؤلفه نوع نیز به نگاشت بین دو سلسله مراتب نوع متکی بود، اما امتیازها بر اساس حداقل تعداد مراحلی بود که هر دو سلسله مراتب را برای یافتن یک نگاشت طی می کردند. هرچه مراحل مورد نیاز بیشتر باشد، شباهت کمتری داشت. تفاوت مهم دیگر این است که [
۲۲] از محدودیتهای تعیین چندگانه استفاده میکرد: اینها قوانینی بودند که در آن شرایط، ترکیب الزامات هستند. این الزامات به ارضای حداقل آستانه برای هر یک از اجزای ویژگی اشاره دارد.
شباهت اصلی بین رویکردهای مورد بحث در بالا و کار ما در این مقاله، استفاده از همان چهار مؤلفه ویژگی است. با این حال، هیچ یک از کارهای قبلی به مشکل بزرگ کردن فرآیند هم ترازی در مقیاس جهانی پرداختند. آنها سلسله مراتب نوع پیچیده را نیز در نظر نگرفتند، با همه رویکردها متکی بر نگاشت های دستی ساخته شده از قبل موجود. در رویکردمان، ما یک معیار تشابه برچسب پیچیدهتر داریم که میتواند برچسبهای مشابه را در زبانهای مختلف شناسایی کند و از زمینه مرتبط محلی نشانهها استفاده کند. برای اصلاح بیشتر نمرات تراز محاسبه شده قبلی، رویکرد ما همچنین از مجموعه ای از قوانین پس از پردازش در آخرین مرحله ترازسازی استفاده می کند. بخش پس پردازش از همان ایده رویکردهای تطبیق مبتنی بر ویژگی که قبلا ذکر شد پیروی می کند ([
۶ ،
۲۲ ])، اما در معیارهای در نظر گرفته شده، شرایط تصمیم گیری آنها و ترکیبات نهایی متفاوت است.
به طور خلاصه، تمام این جنبه ها توسط آثار قبلی که در بالا مورد بحث قرار گرفت در نظر گرفته نشد. علاوه بر این، ما مشکل تطبیق موجودیتهای ناقص (آدرس از دست رفته یا دادههای مختصات) را بررسی میکنیم و از آمار نوع برای تنظیم امتیازهای مختصات به اندازه موجودیتها استفاده میکنیم.
۳٫ بیان مشکل
مشکل تحقیقی که در این مقاله به دنبال آن هستیم در این بخش معرفی شده است. اجازه دهید و مجموعه داده های دو نهاد جغرافیایی باشد. و در مقیاس بزرگ فرض می شوند: هر یک از آنها حداقل ده ها میلیون موجودیت دارد. هر موجود جغرافیایی و با ویژگی های زیر مشخص می شود. اول، ویژگی های برچسب و از نهادها و به ترتیب از یک نام و/یا مجموعه ای از نام مستعار ساخته می شوند. اینها می توانند به هر زبانی باشند. دوم، صفات نوع و از نهادها و به ترتیب، نام و سطح طبقه بندی را نشان می دهد که نهادهای مربوطه در آن قرار دارند و متعلق به در و سلسله مراتب نوع مربوطه و سلسله مراتب انواع ذکر شده است و ، به ترتیب. سوم، صفات آدرس و حاوی اطلاعات آدرس کامل نهادها باشد و ، به ترتیب، به عنوان یک سند متنی واحد. با این حال، بیشتر از و نهادها اطلاعات بیشتری در مورد مختصات خود دارند. ویژگی های مجموعه مختصات و از نهادها و به ترتیب از عرض و طول جغرافیایی ساخته می شوند. آنها ممکن است به صورت اختیاری شامل اطلاعات جعبه محدود شوند.
ما این را فرض می کنیم و ناهمگن هستند. این بدان معنی است که برای هر و :
-
و ممکن است ساختارهای متفاوتی داشته باشند (یعنی برچسب ها ممکن است به روش های مختلف نوشته شوند، به طور بالقوه شامل بخش های عمومی تر هستند، و قطعات ممکن است به طور متفاوتی مرتب شوند). و همچنین ممکن است به زبان های مختلف موجود باشد (گاهی اوقات، هیچ زبانی با هم تداخل دارند).
-
و ممکن است درجات مختلفی از دانه بندی، ساختارهای سلسله مراتبی و نام انواع داشته باشد.
-
و ممکن است فرمت های متفاوتی داشته باشد و با سطوح مختلف ناقصی همراه باشد. علاوه بر این، آنها ممکن است حاوی اطلاعات بیشتر/کمتر مرتبط باشند.
-
و ممکن است مقداری از یکدیگر دور باشند و یکی از آنها نیز ممکن است در دسترس نباشد. تعداد کمی از نهادهایی که دارند / موجود شامل اطلاعات جعبه مرزی است.
برای جمع بندی مشکل تحقیق خود، با توجه به دو نهاد و ، ما قصد داریم بررسی کنیم که آیا آنها همان موجودیت جغرافیایی دنیای واقعی را نشان می دهند: . برای رسیدگی به این مشکل، نمرات شباهت فردی را استخراج می کنیم که از اطلاعات موجود در هر ویژگی استفاده می کند. سپس امتیازهای به دست آمده را در یک نمره هم ترازی وزنی ترکیب می کنیم که با یک آستانه مقایسه می شود تا تصمیم بگیریم که آیا و همخوانی داشتن.
بخش ۴ روشها/مکانیسمهای دقیق را برای استخراج امتیازات اجزای جداگانه ارائه میکند، در حالی که
بخش ۵ همه این مؤلفهها را در سیستم یکپارچه GLEAN، که در سناریوی همترازی آفلاین اعمال میشود، جمعآوری میکند.
۴٫ اجزای GLEAN
در این قسمت اجزای GLEAN را به تفصیل شرح می دهیم. ما ابتدا معیار مربوط به توکن بافت محلی را در
بخش ۴٫۱ ارائه می کنیم. این به این دلیل است که ما از این اندازه گیری هم در برچسب ها و هم در محاسبه شباهت های اجزاء استفاده می کنیم. سپس امتیاز کلی شباهت POI و نمرات ترکیب آن را در
بخش ۴٫۲ شرح می دهیم . در
بخش ۴٫۳ ، قوانین پس از پردازش مورد استفاده برای پالایش امتیازهای جفت لبه را مورد بحث قرار می دهیم.
۴٫۱٫ ارتباط رمز زمینه محلی
در رویکرد همترازی ما، ارتباط بافت محلی هنگام محاسبه شباهتهای برچسب بسیار مهم است، زیرا نشانههای مشابه ممکن است سطوح مختلفی از ارتباط را در زمینههای جغرافیایی مختلف داشته باشند. یک بافت جغرافیایی توسط یک منطقه جغرافیایی معین تعریف می شود و شامل موجودیت های موجود در منطقه می شود. این کار با در نظر گرفتن الحاق ویژگی های متنی موجودیت در نظر گرفته شده (مثلاً برچسب/نام مستعار یا آدرس) به عنوان یک سند واحد انجام می شود. ، که در آن D مجموعه ای از اسناد (موجودات) موجود در یک زمینه جغرافیایی است.
سپس ارتباط محلی یک نشانه را به عنوان فرکانس سند معکوس آن (IDF) در زمینه محلی همانطور که در معادله ( ۱ ) تعریف شده است، تعریف می کنیم.
سپس می توان از این مقادیر مربوط محلی برای محاسبه شباهت بین ویژگی های متن استفاده کرد. در رویکرد خود، ما دو معیار مرتبط محلی را اتخاذ میکنیم: (۱) شباهت محلی جاکارد با وزن IDF (LIDFJ) (معادله ( ۲ )) و (۲) میانگین گنجاندن کلمه با وزن IDF (معادله ( ۳ )). A و B دو مجموعه از نشانه های پیش پردازش شده را از یک ویژگی متنی معین (مثلاً برچسب، آدرس) نشان می دهند که به ترتیب متعلق به دو موجودیت مقایسه شده است.
همانطور که در رابطه (
۲ ) اشاره شد، یک ثابت اضافه می کنیم که امتیاز نهایی را در اندازه گیری LIDFJ تنظیم می کند. در عمل، توزیع امتیاز خام LIDFJ معمولاً پایینتر از روشهای تعبیهشده است، بنابراین ممکن است استفاده از برخی موارد ضروری باشد. برای افزایش نمرات
شکل ۱ نشان می دهد که چگونه یک نشانه ”
کنیسه ” بسته به بافت جغرافیایی آن می تواند ارتباط متفاوتی داشته باشد. در مناطقی که تقریباً اندازه آنها یکسان است، ادینبورگ (تصویر سمت راست) در مقایسه با اورشلیم غربی ، دارای موجودیت های بسیار کمتری با نماد ”
کنیسه " است. این بدان معناست که این نشانه زمانی که در صفت(های) متنی وجود دارد، برای موجودیتهای واقع در ادینبورگ بیشتر از آنهایی که در اورشلیم غربی قرار دارند، مرتبط است. از این رو، این فرکانس پایین به معنای LIDF بالاتر و ارتباط بیشتر است. به عبارت دیگر، اگر دو نهاد در ادینبورگ نماد ”
کنیسه ” را به اشتراک بگذارند، احتمال اینکه آنها با یکدیگر مطابقت داشته باشند بسیار بیشتر از این است که در غرب اورشلیم نیز همین اتفاق بیفتد.
۴٫۲٫ نمرات تراز
امتیاز هم ترازی از یک جفت موجودیت و ، از چهار جزء تشکیل شده است: برچسب ( ، نوع ( )، نشانی ( ) و فاصله جغرافیایی ( ). امتیاز نهایی به صورت مجموع وزنی نمرات شباهت هر یک از مؤلفه ها محاسبه می شود. برای یک جفت موجودیت معین و نمره نهایی آن در رابطه ( ۴ ) تعریف شده است.
وزنه ها ، ، ، و بایاس
b را می توان با رگرسیون خطی یاد گرفت اگر داده های برچسب دار کافی ارائه شود. روش دیگر، دیگر روش های رگرسیون پیچیده تر نیز می تواند استفاده شود. در تنظیم مشکل ما، دادههای برچسبگذاری شده در دسترس نیستند و رویکردهای پیچیدهتر یادگیری ماشینی امکانپذیر نیستند. بنابراین، در این مقاله، ما به مشکل ترکیب بهینه امتیازات مؤلفهها نمیپردازیم، و در عوض بر روی خود معیارهای تشابه مؤلفهها تمرکز میکنیم. این توابع امتیازدهی شباهت مؤلفه ها ، ، و در
بخش ۴٫۲٫۱ ،
بخش ۴٫۲٫۲ ،
بخش ۴٫۲٫۳ و
بخش ۴٫۲٫۴ ارائه شده است.
۴٫۲٫۱٫ مولفه برچسب
جزء برچسب متکی بر دو بخش مختلف است که مکمل یکدیگر هستند. یکی رمزگذار جملات چند زبانه است که می تواند تطبیق بین زبانی را انجام دهد. به عنوان یک مدل توالی، میتواند تفاوتهای معنایی ناشی از توالیهای مختلف را توضیح دهد. بخش دیگر شباهت محلی IDF-Jacard است که می تواند از ارتباط توکن ها در یک زمینه جغرافیایی خاص استفاده کند.
امتیاز نهایی بازگردانده شده برای مؤلفه برچسب، حداکثر دو جزء فرعی آن است. جزئیات نحوه محاسبه هر دو امتیاز در
بخش ۴٫۲٫۱٫۳ و
بخش ۴٫۲٫۱٫۴ توضیح داده شده است. قبل از محاسبه این امتیازات، ابتدا پیش پردازش برچسب و ترتیب قطعات برچسب را به ترتیب در
بخش ۴٫۲٫۱٫۱ و
بخش ۴٫۲٫۱٫۲ انجام می دهیم.
۴٫۲٫۱٫۱٫ پیش پردازش برچسب
همه برچسبها و نامهای مستعار از تکنیکهای پیشپردازش استاندارد استفاده میکنند که شامل کاهش کاراکترها و حذف علائم نگارشی است. کاهش کاراکترها مهم است زیرا منابع داده مختلف ممکن است از حروف متفاوت برای برخی کلمات استفاده کنند. با این حال، رمزگذارهای جملات مانند MUSE به حروف کوچک و بزرگ حساس هستند و نمرات شباهت بین جفتهای جملات کوچکتر میتواند تفاوتهای ظریف کمتری داشته باشد، زیرا گاهی اوقات کلمات در موارد مختلف ممکن است معنای متفاوتی داشته باشند. بنابراین، برای برخی از جفت برچسبها (به عنوان مثال، برچسبهای اصلی و برچسبهای انگلیسی اصلی، در صورتی که زبان اصلی نباشد)، ما انتخاب میکنیم تا شباهت بین برچسبها را با پوشش اصلی محاسبه کنیم.
ما همچنین حداکثر تعداد نام مستعار داریم که باید در نظر گرفته شوند ( )، به منظور اطمینان از اینکه محاسبه امتیاز شباهت برچسب خیلی طول نمی کشد. علاوه بر این، برای جلوگیری از پیچیدگی درجه دوم هنگام محاسبه شباهت، شباهت بین همه جفتهای نام مستعار از دو موجودیت را محاسبه نمیکنیم. در عوض، ما یک برچسب اصلی (به طور کلی به زبان محلی) برای هر موجودیت داریم و فقط شباهت نام مستعار را با برچسب اصلی موجودیت دیگر محاسبه می کنیم. بهطور استثنایی، ما شباهتهای نام مستعار را برای برچسبهای انگلیسی (اگر انگلیسی زبان اصلی نباشد) محاسبه میکنیم. شایان ذکر است که در مورد ما، برچسب های اصلی قبلاً در HuaweiPD تعریف شده اند و در ویکی پدیا اولین برچسب rdfs: یک موجودیت به زبان مادری کشور (یا یکی از زبان های مادری آن) به عنوان برچسب اصلی استفاده می شود.
علاوه بر این، برخی از برچسب ها نه تنها حاوی نام نهاد بلکه اطلاعات اضافی در مورد محلی سازی آن نیز هستند. این اطلاعات اغلب پس از کاما (“)، خط تیره (یعنی “-“) یا بین پرانتز در انتهای برچسب اضافه می شود. این می تواند اندازه گیری شباهت بین برچسب های نشان داده شده در زیر را بسیار دشوار کند.
فواره راس ، باغ های خیابان پرینس وست، ادینبورگ → فواره راس
فواره راس ( ادینبورگ) → فواره راس
برای در نظر گرفتن این مبادله هنگام پیش پردازش برچسب ها، ما برچسب اصلی را نگه می داریم، اما همچنین یک رشته حذف شده اضافه می کنیم، جایی که قسمت های عمومی تر شناسایی شده توسط کاراکترهای ویژه که قبلا توضیح داده شد را حذف می کنیم. مرحله پیش پردازش برچسب در GLEAN به عنوان توکن مجموعه تابع زمانی که ورودی ها برچسب هستند، و به عنوان توکنیز تابع زمانی که آنها آدرس هستند ، ادغام می شود. در مقایسه با tokenset ، tokenize ممکن است شامل پیش پردازش خاص آدرس، مانند مدیریت اختصارات باشد. برای برچسب نهاد ، تابع tokenset مجموعه ای از توکن های نوشتن را خروجی می دهد.
یکی از مشکلات در این رویکرد این است که فرض میکند قسمتهای خاصتر برچسب قبل از عمومیتر قرار میگیرند. این همیشه درست نیست، و ما به راهی برای شناسایی این موارد و مرتب کردن مجدد قطعات برچسب نیاز داریم تا اطمینان حاصل کنیم که آنها همیشه سازگار هستند. این همان چیزی است که در پاراگراف زیر توضیح می دهیم (به عنوان مثال،
بخش ۴٫۲٫۱٫۲ ).
۴٫۲٫۱٫۲٫ لیبل سفارش قطعات
برای اطمینان از اینکه اشتباهاً شباهت را برای بخشهای کلیتر برچسب محاسبه نمیکنیم، مرتب کردن قطعات برچسب بسیار مهم است. ما قسمتهای یک برچسب را بهعنوان رشتههای فرعی تعریف میکنیم که میتوان آن را با تقسیم کردن برچسب به «» یا «-» به دست آورد (از جمله فاصله قبل و بعد از «-» برای جلوگیری از تقسیم کلمات خط فاصله). در مثال زیر، قطعات برچسب از کمتر به خاص تر مرتب شده اند. اگر روش strip down را که قبلا توضیح داده شد به کار ببریم، در نهایت به اشتباه آن را به جای ” بنای یادبود جورج بوکانان " به " ادینبورگ ” تبدیل می کنیم . به همین دلیل است که مثال زیر باید به یک نمایش استاندارد بازآرایی شود، که در مورد ما از بیشتر به کمتر خاص است.
یکی از راههای تشخیص اینکه قسمتهای مختلف برچسب چقدر خاص هستند، بررسی آنها با آدرس نهاد است. احتمال ظاهر شدن قسمت های عمومی تر در آدرس بیشتر از قسمت های خاص تر است. برای مثال قبلی ما، آدرس ” ۲۶A Candlemaker Row, Edinburgh EH1 2QQ, United Kingdom ” نشان می دهد که ” Edinburgh ” و ” Candlemaker Row ” بخش های کلی تری هستند. از آنجایی که اینها در ابتدای برچسب هستند، میتوانیم ترتیب را معکوس کنیم تا از سازگاری لازم اطمینان حاصل کنیم. این به عنوان اولین مرحله از ترتیب مجدد برچسب انجام می شود. اگر هیچ قسمت برچسبی در آدرس موجود نباشد یا بیش از یک قسمت در آدرس موجود نباشد، ترتیب مجدد برچسب آماری اعمال می شود.
مرتب سازی مجدد برچسب آماری فرکانس های قطعات برچسب را در یک زمینه جغرافیایی معین، مانند پارتیشن استخراج می کند و از آن فرکانس ها برای مشاوره در مورد ویژگی قطعه استفاده می کند. قسمتهای کمتکرار به احتمال زیاد خاصتر هستند. در مثال ما، میتوانیم POIهای دیگری را با برچسبهایی که حاوی « کلیسای گریفریرز » هستند، مانند نمونههای زیر، پیدا کنیم، اما هیچ POI دیگری با « بنای یادبود جورج بوکانان » وجود ندارد.
« ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز »
« ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز، زندان کوونانترز »
“ ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز، لج به علاوه، اسکله دروازه ”
سپس به هر قسمت از برچسب یک مقدار فرکانس قسمت معکوس محلی (LIPF) اختصاص داده می شود. این ایده تا حدودی شبیه به ارتباط محلی نشانهها است که در
بخش ۴٫۱ بحث شد ، جایی که یک منطقه جغرافیایی تعریف شده است. با این حال، در این مورد، فرکانس ها برای کل قسمت های برچسب به جای توکن های جداگانه محاسبه می شوند.
اگر برچسبی با قطعات خاص تری شروع شود، انتظار می رود که LIPF قطعات به ترتیب کاهشی باشد. این بدان معناست که اگر یک برچسب مقادیر LIPF افزایشی برای قطعات خود داشته باشد، احتمالاً در جهت معکوس است. حداقل آستانه نرخ افزایش LIPF به منظور اطمینان از اینکه افزایش LIPF قابل توجه است و تصادفی رخ نداده است استفاده می شود. برچسب فقط در صورتی معکوس می شود که قطعات برچسب دارای مقادیر LIPF یکنواخت در حال افزایش باشند که آستانه نرخ افزایش را برآورده کند. آستانه نرخ افزایش LIPF بالاتر محافظهکارانهتر است و میتواند تعداد برچسبهایی را که به اشتباه مرتب شدهاند کاهش دهد، اما تعداد برچسبهای معکوسشده را نیز افزایش میدهد.
۴٫۲٫۱٫۳٫ رمزگذار جملات چند زبانه
همسویی نهادهای جغرافیایی در مقیاس جهانی نه تنها به دلیل اندازه بالقوه بزرگ مجموعه داده ها، بلکه به دلیل زبان های مختلف مورد استفاده، چالش هایی را ایجاد می کند. بسیاری از کشورها چندین زبان رسمی دارند و مجموعه دادههای مختلف ممکن است همیشه دارای برچسبهایی به یک زبان نباشند. بنابراین استفاده از معیارهای شباهت که می تواند شباهت ها را در زبان های مختلف شناسایی کند، مهم است. به همین دلیل است که سیستم ما از قدرت رمزگذارهای جملات چند زبانه از پیش آموزش دیده استفاده می کند.
در سیستم ما، ما از رمزگذار جملات جهانی گوگل استفاده میکنیم، زیرا بسیار مقیاسپذیر است و در کار شباهت متن بسیار خوب عمل میکند. دارای نسخه چند زبانه (MUSE) [
۲۳ ،
۲۴ ] است که در حال حاضر از ۱۶ زبان پشتیبانی می کند (
https://tfhub.dev/google/universal-sentence-encoder-multilingual/3 (در ۶ اکتبر ۲۰۲۱ در دسترس قرار گرفته است)). این تقریباً به تعداد زبانهای موجود در مجموعه دادههای ما نیست (
جدول ۱ را ببینید)، اما برخی از رایجترین زبانها را پوشش میدهد. ما همچنین سعی کردیم از LaBSE [
۲۵ ] استفاده کنیم که از زبان های بسیار بیشتری پشتیبانی می کند (۱۰۹ (
https://tfhub.dev/google/LaBSE/1(دسترسی در ۶ اکتبر ۲۰۲۱))). با این حال، به طور قابل توجهی کندتر از MUSE است و در معیار تشابه متنی معنایی [
۲۵ ] به خوبی عمل نمی کند (دارای حدود ۱۰٪ کمتر از پیرسون در مورد وظیفه).
ما هر یک از برچسبها/نام مستعار هر موجودیت را از دو منبع داده برای تراز کردن از قبل پردازش میکنیم و از MUSE برای کدگذاری جاسازیهای جمله آنها استفاده میکنیم که دو ماتریس جاسازی را ایجاد میکنند. شباهت موجودیت های زوجی بین موجودیت های دو مجموعه داده با انجام یک ضرب ماتریس بین دو ماتریس تعبیه شده محاسبه می شود. محاسبه این مقدار بسیار کمتر از سایر بخشهای امتیاز تراز است و همراه با شباهت جاسازی نوع برای فیلتر اولیه تعداد نامزدها استفاده میشود. این در
بخش ۵ مورد بحث قرار گرفته است .
ما شباهت جاسازی جمله برچسب را تعریف می کنیم بین نهادها و و نشان دهنده تعبیه جمله MUSE موجودیت است برچسب مانند (ر.ک معادله ( ۵ )).
۴٫۲٫۱٫۴٫ شباهت وزنی ارتش اسرائیل
اگرچه استفاده از مدل های از پیش آموزش دیده به ما امکان می دهد از مجموعه بزرگ و منابع محاسباتی مورد استفاده برای آموزش آنها بهره مند شویم، اما آنها از ارتباط محلی کلمات آگاهی ندارند. بسیار مهم است که ارتباط محلی یک کلمه معین را در زمینه جغرافیایی در نظر بگیریم. این ارتباط محلی ممکن است به طور چشمگیری متفاوت باشد. به عنوان مثال، کلمه ” ادینبورگ ” ممکن است در متن لندن هنگام تطبیق ” میخانه دوک ادینبورگ” بسیار مرتبط باشد زیرا یک کلمه نادر است، در حالی که در بافت شهر ادینبورگ، نشانه ” ادینبورگ ” ظاهر می شود. اغلب اوقات و باید هنگام مطابقت با ” گالری ملی اسکاتلند ادینبورگ ” ارتباط کمی داشته باشد.
به عنوان مثال، اگر شباهت LIDFJ را بین « گالری ملی » و « گالری ملی اسکاتلند ادینبورگ » در زمینه مرکز ادینبورگ محاسبه کنیم، شباهت زیاد است (۹۱۷/۰) زیرا « اسکاتلندی » و « ادینبورگ » ارتباط محلی پایینی دارند. با این حال، اگر از رمزگذارهای جملات استفاده کنیم که در زمینه کلی گسترده آموزش داده شده اند، شباهت بسیار کم خواهد بود (در MUSE 0.539 است).
بنابراین، در رویکرد خود، ما از LIDFJ برای تکمیل شباهت جاسازیهای جمله با اتخاذ یک معیار تشابه بر اساس رویکرد ارتباط بافت محلی شرح داده شده در بخش ۴٫۱ استفاده میکنیم. امتیاز نهایی برچسب با در نظر گرفتن نمره تعبیه جمله ( ) و امتیاز LIDFJ ( ). در این کار، همانطور که در رابطه ( ۶ ) نشان داده شده است، به سادگی از حداکثر بین این دو استفاده کردیم:
که در آن مولفه امتیاز LIDFJ در معادله ( ۷ ) تعریف شده است:
به یاد می آوریم که تابع
tokenset برچسب ها را همانطور که در
بخش ۴٫۲٫۱٫۱ توضیح داده شده از قبل پردازش می کند و مجموعه ای از نشانه های ترکیبی خود را خروجی می دهد.
۴٫۲٫۲٫ کامپوننت را تایپ کنید
برای یک جفت موجودیت و ، نمره جزء نوع با ترکیب نمره تعبیه نوع محاسبه می شود و یک جزء تنزل نوع همانطور که در معادله ( ۸ ) تعریف شده است. امتیاز جزء نوع نمره جزء نوع است منهای نمره تنزل نوع .
بدون نظارت آموخته می شود و می تواند نمرات شباهت ظریف را محاسبه کند. در حالی که برای کاهش کاستی ناشی از اندازه گیری تعبیه با ایجاد جفت های گسست سطح بالا استفاده می شود. این دو امتیاز شباهت به ترتیب در
بخش ۴٫۲٫۲٫۱ و
بخش ۴٫۲٫۲٫۲ مورد بحث قرار گرفته است.
۴٫۲٫۲٫۱٫ Embeddings را تایپ کنید
ایجاد نقشه برای دو سلسله مراتب بسیار متفاوت و بالقوه پیچیده و پر سر و صدا می تواند یک کار بسیار چالش برانگیز باشد. در بسیاری از موارد، مانند مجموعه دادههای شرح داده شده در
جدول ۱ ، یافتن همترازیها به صورت دستی میتواند غیرممکن باشد، زیرا کلاسها و انواع متعددی از یک منبع وجود دارد که میتوانند به چندین نوع دیگر در بخشهای مختلف سلسله مراتب منبع دیگر نگاشت شوند. علاوه بر این، در بسیاری از موارد، نگاشت های مختلف ممکن است سطح اطمینان یکسانی نداشته باشند، و تولید آنها به صورت دستی بسیار دشوار است.
بنابراین، در رویکرد خود، یک روش بدون نظارت را برای یادگیری تعبیههای نوع پیشنهاد میکنیم. مزایای نمایش انواع به عنوان جاسازی بسیار زیاد است. اولاً، محاسبه شباهتهای بین انواع را میتوان به راحتی با محصول نقطهای و هنگام مقایسه انجام داد انواع از منابع مختلف شباهت بین هر جفت ممکن از انواع را می توان به راحتی با ضرب ماتریس محاسبه کرد. علاوه بر این، تعبیهها میتوانند سطوح اطمینان متفاوتی را در نگاشتها نشان دهند، زیرا شباهتها به عنوان نزدیکی بین نمایشهای انواع در فضای جاسازی کدگذاری میشوند. این همچنین امکان محاسبه شباهت بین جفت های نامرئی از انواع را فراهم می کند.
برای یادگیری تعبیهها، به دادههای آموزشی نیاز داریم. تولید دادههای با کیفیت بالا احتمالاً نیازمند نظارت انسانی است و این میتواند بسیار پرهزینه باشد. در رویکرد ما، استفاده از جفتهای همترازی با اطمینان بالا را از یک اجرای تراز قبلی پیشنهاد میکنیم که در آن جزء نوع خاموش است. سپس جفتهای نوع از آن همترازیهای با اطمینان بالا به عنوان مثالهای مثبت استفاده میشوند و نمونههای منفی با خراب کردن موارد مثبت ایجاد میشوند.
مجموعه مثال های مثبت را به این صورت تعریف می کنیم و منفی ها به عنوان . سپس داده های آموزشی به صورت تعریف می شوند ، جایی که موارد مثبت دارای برچسب هستند و منفی ها .
مدل تعبیه نوع معادل DistMult [ ۲۶ ] بدون تعبیه رابطه است. نوع امتیاز تعبیه (ر.ک. معادله ( ۹ )) حاصل ضرب نقطه ای از نوع بردارهای تعبیه شده است. و ، جایی که و انواع موجودیت ها هستند و ، به ترتیب.
این مدل به گونه ای آموزش داده شده است که امتیاز را برای مثال های مثبت به حداکثر برساند و برای نمونه های منفی آن را به حداقل برساند. این کار با به حداقل رساندن تابع ضرر L (ر.ک معادله ( ۱۰ )) که از آنتروپی متقاطع باینری استفاده می کند، انجام می شود. به عنوان محدودیت، بردارهای embeddings هستند -نرمال شده، یعنی .
این روش بدون نظارت برای تولید داده های آموزشی می تواند به راحتی تعداد زیادی نمونه مثبت با کیفیت نسبتا بالا ایجاد کند. ممکن است مثبت کاذب وجود داشته باشد، زیرا در بیشتر مجموعههای داده میتواند موجودیتهایی از انواع مختلف وجود داشته باشد که نباید تراز شوند، اما از آنجایی که آنها بسیار نزدیک به یکدیگر قرار دارند و برچسبها و آدرسهای مشابهی دارند، در نهایت در ترازهای با اطمینان بالا قرار میگیرند.
نمونه هایی از این موارد عبارتند از: ایستگاه اتوبوس و خیابان ، شهر و ایستگاه راه آهن . ایستگاههای اتوبوس اغلب به نام خیابانها نامگذاری میشوند و مکان بسیار مشابهی دارند و تنها چیزی که اشاره میکند نباید با نوع آنها مطابقت داشته باشند. با توجه به اینکه فرآیند تولید داده های آموزشی انواع را نادیده می گیرد و این نوع مثبت کاذب تکراری است، مدل تعبیه نوع در نهایت به یادگیری اختصاص شباهت زیاد بین آنها می پردازد.
برای رسیدگی به این مشکل، یک مکانیسم تنزل نوع را شامل میکنیم که هدف آن کاهش امتیاز نوع برای آن موارد است.
۴٫۲٫۲٫۲٫ Demotion را تایپ کنید
تنزل نوع متکی بر فهرستی از جفتهای ناهمگونی است که شامل انواعی از سلسله مراتب دو منبع و استدلال فرعی بر سلسله مراتب است. این استدلال اجازه می دهد تا از عدم پیوستگی بین جفت انواع سطح بالا استفاده شود، که از آن می توان جدایی زوجی همه اجداد آنها را استنباط کرد. این فرآیند ایجاد جفت های تنزل سطح بالا را ساده می کند و آنها را قابل درک تر و مدیریت آسان تر می کند. با آنها می توانیم نتیجه بگیریم حاوی به علاوه همه بدیهیات عدم پیوستگی استنباط شده بر اساس سلسله مراتب.
یکی از مشکلات این نوع رویکرد این است که نمی توان از آن در سلسله مراتب اشتباه استفاده کرد. این می تواند هنگام تراز کردن مجموعه داده ها با بدیهیات نادرست
subClassOf ، مانند Wikidata، مشکل ساز باشد. مثال
شکل ۲ مسائلی را که ممکن است باعث این امر شود را نشان می دهد. اصل
پارک ⊑
ArchitecturalStructure اشتباه است و اگر یک جفت عدم پیوستگی
ArchitecturalStructure ∩
AdministrativeRegion = ∅ اضافه شود، به استنتاج های اشتباه منجر می شود. در این صورت، نوادگان هر دو کلاس نیز از هم گسسته خواهند شد، که شامل بدیهیات نادرست
Park ∩
NationalPark = ∅ و
NationalPark ∩ می شود.
پارک ملی = ∅.
برای توضیح چنین مشکلی، و همچنان اجازه دادن به ساده سازی ارائه شده با استفاده از استدلال، امکان افزودن جفت های تبلیغاتی سطح بالا را در نظر می گیریم. (که از آن مجموعه جفت استنباط شده است را می توان مشتق کرد) که تنزل ها را خنثی می کند. علاوه بر آن، از رمزگذارهای جملات نیز برای محاسبه شباهت برچسب نوع و خنثی سازی تنزل جفت هایی با شباهت بالای یک آستانه معین استفاده می کنیم. .
هر زمان که یک موجودیت با انواع جفت شود شامل هر گونه جفت ناپیوستگی انواع استنباط شده و هیچ جفت تبلیغاتی انواع استنباط شده ای نیست (به عنوان مثال، ) سپس نمره شباهت نوع آن کاهش می یابد . تابع تنزل نوع در معادله ( ۱۱ ) تعریف شده است.
۴٫۲٫۳٫ جزء آدرس
یکی از چالشهای اصلی هنگام تطبیق آدرسها، فرمتهای مختلفی است که ممکن است وارد شوند. علاوه بر این، برخی از آدرسها ممکن است کاملتر از بقیه باشند و برخی از آنها مانند استان و کدپستی فاقد بخشهایی مانند استان و کد پستی باشند، مانند مثالهای زیر.
“ ۲ Semple St., EH3 8BL, Edinburgh, Midlothian, Scotland, UK ”
“ ۲ Semple Street, EH3 8BL Edinburgh, United Kingdom ”
در رویکرد خود، ما از شباهت محلی ژاکارد با وزن IDF (LIDFJ) برای تطبیق آدرس ها استفاده می کنیم. مزیت LIDFJ این است که می تواند ارتباط بخش های مختلف آدرس را در نظر بگیرد. بهعنوان مثال، به سیستم همترازی اجازه میدهد تا تشخیص دهد که « Midlothian »، « Scotland »، « UK »، « بریتانیا »، « خیابان » و « St » نشانههای چندان مرتبطی در زمینه محلی نیستند، زیرا اغلب اتفاق میافتند. از سوی دیگر، کدپستی و نام خیابان اهمیت بیشتری دارند. در نتیجه، تا زمانی که این قطعات کمتر با هم مطابقت داشته باشند، امتیاز شباهت بالا باقی خواهد ماند. امتیاز جزء آدرس در معادله ( ۱۲ ) تعریف شده است، به طوری که و آدرس نهادها هستند و ، به ترتیب. شبیه است به اما از یک تابع متفاوت برای به دست آوردن مجموعه نشانه ها استفاده می کند. به طور خاص، تابع tokenize ممکن است شامل پیش پردازش خاص آدرس، مانند مدیریت اختصارات، در مقایسه با مجموعه نشانههای تابع باشد .
محدودیت این رویکرد این است که بر موجودیت هایی متکی است که مختصاتی دارند تا سیستم هم ترازی بتواند تشخیص دهد که آنها به یک بافت جغرافیایی تعلق دارند. اگر موجودیت ها در یک زمینه جغرافیایی شناخته نشده باشند، نمی توان از این رویکرد استفاده کرد.
۴٫۲٫۴٫ مولفه فاصله جغرافیایی
هدف مولفه فاصله جغرافیایی تبدیل فاصله واقعی بین موجودیت ها به یک معیار تشابه است. . را امتیاز باید نشان دهد که یک جفت موجودیت با توجه به نوع آنها چقدر نسبتا نزدیک است. به عنوان مثال، فرودگاه های با فاصله ۱ کیلومتر باید امتیاز بالایی داشته باشند، در حالی که رستوران هایی که در فاصله ۱ کیلومتری از یکدیگر قرار دارند باید امتیاز پایینی داشته باشند. در یک سیستم هم ترازی جغرافیایی که شامل انواع موجودات جغرافیایی (از ایستگاه های اتوبوس تا کشورها) می شود، فاصله قابل قبول بین موجودیت های منطبق می تواند از چند متر تا صدها کیلومتر متغیر باشد.
این بدان معناست که ما نمیتوانیم به طور یکسان با همه نهادها با اندازههای جغرافیایی متفاوت رفتار کنیم و باید امتیاز فاصله را با توجه به ویژگیهای موجودیتها تطبیق دهیم. جعبه های محدود کننده دقیقاً نوع اطلاعات مورد نیاز ما را ارائه می دهند. هر چه موجودیت بزرگتر باشد (از این رو جعبه مرزی آن)، تحمل فاصله باید بزرگتر باشد. مشکل، همانطور که در بخش ۵ توضیح داده شد ، این است که بسیاری از نهادها فاقد اطلاعات جعبه مرزی هستند. بنابراین، برای حدس زدن اندازه یک موجودیت بر اساس نوع آن، مجدداً به آمار اندازه جعبه محدود تکیه می کنیم. امتیاز فاصله سپس همانطور که در معادله ( ۱۳ ) توضیح داده شده است، محاسبه می شود فاصله ژئودزیکی بین مختصات است و از نهادها و ، به ترتیب. اندازه جعبه مرزی مورب از است . پارامتر m حداکثر فاصله ای است که برای آن می تواند مقدار غیر صفر داشته باشد. پارامتر p تعیین می کند که چقدر سختگیرانه است اندازه گیری باید این باشد: یک p بزرگتر منجر به همگرایی سریعتر می شود به صفر در آزمایشات خود استفاده می کنیم و .
۴٫۳٫ قوانین پس پردازش
مجموعه ای از قوانین اصلاح ممکن است در مرحله نهایی تراز به منظور بهبود عملکرد کلی ترازها استفاده شود. این برای پرداختن به موارد لبه ای است که حل آنها دشوار است و با تنظیم امتیازهای تراز انجام می شود. ایده این است که قوانینی با مجموعه ای از شرایط منطقی ایجاد کنیم که بتواند امتیاز مثبت های کاذب لبه را کاهش دهد و امتیاز منفی های کاذب را ارتقا دهد. این کار با اعمال مجموعه ای از بررسی ها بر روی سه ویژگی (یعنی برچسب، نوع و فاصله) یک جفت انجام می شود. مرحله پس پردازش پس از دریافت امتیازهای ترازهای ترکیبی از مؤلفههای Fallback و Partition انجام میشود و تصمیم میگیرد که آیا یک امتیاز همترازی تنزل رتبه، ارتقا یا حفظ شود.
اگر موارد لبه طبقهبندیشده اشتباه برچسبگذاریشده در دسترس باشد، میتوان یک طبقهبندی کننده را بر روی ویژگیهایی مانند امتیاز ویژگی یا معیارهای سفارشی آموزش داد. با این حال، در مورد ما، چنین دادههایی در دسترس نبود و تصمیم گرفتیم از شرایط قوانین دستی ساخته شده برای ارزیابی مستقل ویژگیهای برچسب، نوع و فاصله جغرافیایی استفاده کنیم. قوانین میتوانند از امتیازات مؤلفهها مجدداً استفاده کنند و آستانههای خاصی را نسبت دهند یا معیارهای سفارشی ایجاد کنند تا جنبههایی را که توسط امتیازهای همترازی پوشش نمیدهند، ثبت کنند.
شرط برچسب بررسی می کند که آیا شباهت جاکارد مبتنی بر توکن دو موجودیت حداقل آستانه معینی را برآورده می کند یا خیر. شرط نوع بررسی می کند که آیا عمیق ترین سطح سلسله مراتبی که در آن انواع از دو نهاد جفت می شود، حداقل آستانه عمق آن را برآورده می کند یا خیر. شرایط فاصله جغرافیایی بررسی می کند که آیا فاصله ژئودزیکی بین آنها حداقل آستانه فاصله را برآورده می کند یا خیر.
در صورتی که هیچ یک از این شرایط برآورده نشود، با کم کردن یک مقدار معین، امتیاز هم ترازی کاهش می یابد. برعکس، اگر همه شرایط برآورده شود، آنگاه امتیاز با محاسبه مجدد و جایگزینی امتیاز همترازی جفت ارتقا مییابد. آستانه سه ویژگی، و همچنین ارزش تنزل، به منظور تکمیل بهترین نقاط ضعف بالقوه معیار امتیاز هم ترازی و به حداکثر رساندن بهبود عملکرد، بهینه سازی شده است.
در عمل، ما مقادیری را آزمایش میکنیم که احتمال بیشتری برای افزایش عملکرد کلی GLEAN در استاندارد طلایی ما دارند. آستانه برچسب ها در محدوده ۰٫۵ تا ۱ با یک مرحله ۰٫۱ تغییر می یابد. آستانه فاصله در این مجموعه انتخاب می شود ، که بر حسب کیلومتر اندازه گیری می شوند. تطبیق ویژگی نوع Boolean است و تنها در صورتی تطابق نوع را در نظر میگیرد که انواع در عمیقترین یا دومین سطح عمیقترین سطح کمعمقترین سلسله مراتب نوع بین منابع مطابقت داشته باشند. با این حال، نمرات تطبیق نوع متفاوت است: . برای عمیق ترین تطابق سطح و برای دومین سطح تطبیق عمیق. مقدار تنزل نوع در مجموعه انتخاب شده است . ما تمام ترکیبهای ممکن این آستانهها را آزمایش میکنیم و ترکیبی را انتخاب میکنیم که بهترین مبادله را از نظر دقت و یادآوری فراهم میکند. عملکرد بر روی داده های استاندارد طلا آزمایش می شود (لطفاً برای جزئیات بیشتر در مورد ارزیابی عملکرد به
بخش ۶ مراجعه کنید).
۵٫ معماری سیستم تراز نهادهای جغرافیایی (GLEAN).
هدف GLEAN تراز کردن دو مجموعه داده بزرگ تا حد امکان کارآمد است. از آنجایی که مجموعه دادهها ممکن است فاقد اطلاعات مختصات باشند، ما دو رویکرد اصلی را طراحی میکنیم، یکی برای رسیدگی به موجودیتها با مختصات و دیگری برای رسیدگی به موجودیتهای بدون مختصات.
ما هر دو را به ترتیب در بخش ۵٫۱ و
بخش ۵٫۲ با جزئیات بیشتر مورد بحث قرار می دهیم . معماری کلی گردش کار آفلاین GLEAN در
شکل ۳ نشان داده شده است .
۵٫۱٫ تطبیق مبتنی بر پارتیشن
رویکرد تطبیق مبتنی بر پارتیشن از مختصات موجودیتها برای دستهبندی آنها به پارتیشنهای جغرافیایی استفاده میکند که حداکثر تعداد موجودیتها را شامل میشود. ایده این است که موجودیت هایی که باید مطابقت داده شوند باید در یک پارتیشن قرار گیرند. علاوه بر این، تطبیق موجودیتها از دو منبع در برابر یکدیگر توسط دستهای در پارتیشنهای جداگانه بسیار کارآمدتر از تطبیق کل مجموعه موجودیتها به طور همزمان است.
پارتیشن بندی را می توان با استفاده از هر روش پارتیشن بندی فضایی پیشرفته انجام داد. در مورد ما، از ساختار چهار درختی استفاده می کنیم. اجازه دهید و مجموعه ای از موجودیت ها از و به ترتیب موجود در پارتیشن: و . ما تعداد موجودیت های موجود در هر پارتیشن را به محدود می کنیم ، مانند . پارتیشن ها به صورت بازگشتی تقسیم می شوند تا زمانی که همه پارتیشن ها این شرایط را برآورده کنند.
ما روش پارتیشن بندی چهاردرختی کلاسیک را تغییر می دهیم تا یک حاشیه m قابل تطبیق را شامل شود تا اطمینان حاصل شود که جفت موجودیت های منطبق در پارتیشن های مختلف قرار ندارند. هنگام انتخاب حاشیه m یک معاوضه وجود دارد زیرا حاشیه های کوچک ممکن است منجر به جفت های تطبیق بیشتر از دست رفته شود، اما m بزرگتر همپوشانی بزرگی بین پارتیشن ها ایجاد می کند که روند هم ترازی را کند می کند. وجود واحدهای بزرگ (مانند کشورها، شهرها) که موقعیت مختصات ممکن است بسیار متفاوت باشد، به متر بزرگ نیاز دارد.(به ده ها یا صدها کیلومتر می رسد). چنین حاشیه های بزرگی امکان پذیر نیست، به ویژه در مناطق متراکم (مانند منهتن) زیرا ممکن است موجودیت های زیادی در چنین حاشیه بزرگی وجود داشته باشد. به همین دلیل، روش پارتیشن بندی ما حاشیه های بزرگتری را در مناطق پراکنده اجازه می دهد، در حالی که به تدریج آن را با یک نرخ کاهش می دهد. در مناطق متراکم تر، به منظور اطمینان از رسیدن به آستانه در حداکثر تعداد موجودیت ها. کاهش حاشیه زمانی آغاز می شود که حداکثر تعداد مورد نیاز موجودیت ها باشد نمی تواند برآورده شود و نسبت بین حاشیه و مورب پارتیشن از یک آستانه خاص فراتر می رود.
راه دیگر برای به حداقل رساندن موضوع مورد بحث در بالا، انجام یک پارتیشن بندی جداگانه برای موجودیت های بزرگی است که به حاشیه های بزرگتر نیاز دارند. از آنجایی که این نهادها نیز نادرتر هستند (به طور کلی مناطق اداری بسیار کمتری نسبت به POI وجود دارد)، اطمینان از آن آسان تر است. اگر نهادها را فقط به مناطق اداری محدود کنیم.
پس از انجام پارتیشن بندی، تطبیق برای هر پارتیشن به طور جداگانه انجام می شود. از آنجایی که ممکن است بین آنها همپوشانی وجود داشته باشد، برای ادغام نتایج از پارتیشن های مختلف در یک خروجی تراز منفرد به یک مرحله اضافی در پایان نیاز داریم. انتخاب نامزدها برای فرآیند تطبیق در هر پارتیشن همانطور که در
شکل ۴ نشان داده شده است انجام می شود . هر موجودیتی که مختصات نقطهای در جعبه کراندار قرار گرفته یا ناحیه پارتیشن را قطع میکند (از جمله حاشیه) انتخاب میشود.
هنگامی که مجموعه ای از نهادهای نامزد از و انتخاب می شوند، تطبیق بین موجودیت های دو منبع شروع می شود، به دنبال فرآیندی که در
شکل ۵ نشان داده شده است. ایده این است که یک پیش فیلتر کردن نهادهای نامزد انجام شود. ابتدا، شباهتهای جاسازی نوع و جاسازی برچسب محاسبه میشوند، زیرا نسبتاً ارزان هستند. این امتیازات سپس برای فیلتر کردن جفتهای با امتیاز پایین استفاده میشوند و فقط موجودیتهای کاندید برتر را حفظ
میکنند . برای هر موجودیت از . متعاقباً، بخشهای باقیمانده امتیازات مؤلفههای دیگر را میتوان برای آن محاسبه کرد جفت نهاد نامزد این تضمین میکند که محاسبات گرانتر، مانند LIDFJ، فقط انجام میشوند بجای . این به طور قابل توجهی روند امتیاز دهی را به طور معمول سرعت می بخشد .
پس از محاسبه امتیاز نهایی، k نامزدهای هر کدام موجودیت مجدداً رتبه بندی می شوند و زوج ها با امتیاز تراز نهایی بازگردانده می شوند؛ جایی که یک آستانه تراز است.
۵٫۲٫ تطبیق بازگشتی
تطبیق مبتنی بر پارتیشن فقط به همترازی موجودیتهایی میپردازد که حاوی مختصات جغرافیایی هستند. رویکرد تطبیق بازگشتی از آن نهادها بدون هیچ نوع اطلاعات مختصاتی مراقبت می کند. این رویکرد عمدتاً به اطلاعات برچسب و آدرس برای بازیابی نامزدها متکی است و هنگام محاسبه نمره نهایی مؤلفه های مختصات را نادیده می گیرد. = ۰).
بازیابی نامزدها شامل یک بازیابی فازی به تدریج محدود کننده در هر دو فیلد آدرس و برچسب است. عبارات جستجو برای ویژگیهای برچسب و آدرس به ترتیب از ترکیب همه برچسبها و نامهای مستعار موجود و اتحاد همه آدرسهای مختلف تشکیل شدهاند. سختی تطابق با حداقل درصد نشانههای جستجویی که باید توسط یک نهاد جغرافیایی مطابقت داده شوند، تعریف میشود. مهم است که با الزامات تطبیق دقیق شروع کنید تا اطمینان حاصل شود که تعداد نامزدها کم است. اگر هیچ نامزدی برگردانده نشود، الزامات تطابق فازی به تدریج کاهش مییابد تا زمانی که تعداد کافی کاندید برگردانده شوند.
۵٫۳٫ بحث در مورد سناریوی تراز آنلاین
سیستم ما همچنین می تواند برای پرونده آنلاین، که در آن یک نیاز اضافی مربوط به تأخیر سرویس وجود دارد، سازگار شود. برای برآوردن الزامات تاخیر کم، چند مرحله وجود دارد که می توان از قبل محاسبه کرد و برخی از فیلترها را می توان برای هرس زودهنگام نامزدها معرفی کرد. میتوان مختصات موجودیتهای نامزد را در کادر محدود کننده موجودیت درخواستشده (یا اندازه متوسط جعبه مرزی نوع آن در صورتی که نهاد یک مورد ندارد) به اضافه تحمل افزایش حاشیه مورد نیاز باشد. وزن های LIDF را می توان برای پارتیشن های از پیش تعریف شده از پیش محاسبه کرد و تعداد جفت های نامزد را می توان با استفاده از محدودیت های نوع و مختصات محدود کرد.
۷٫ نتیجه گیری
در این مقاله، ما GLEAN را پیشنهاد کردیم، یک رویکرد مقیاسپذیر برای تراز کردن نهادهای جغرافیایی (یعنی POI) از منابع مختلف بر اساس چهار ویژگی (برچسب، مختصات، نوع و آدرس). رویکرد ما میتواند منابع ناقص و سلسلهمراتب نوع پیچیده را مدیریت کند و از ارتباط بافت محلی نشانهها و برچسبهای چند زبانه استفاده کند. روش آفلاین از پارتیشن بندی حاشیه تطبیقی برای فعال کردن ترازهای مقیاس پذیر مجموعه داده های بزرگ در مقیاس جهانی استفاده می کند.
مطالعه فرسایشی ما نقش مهم رمزگذار جملات چندزبانه را در افزایش کیفیت تراز، به ویژه یادآوری نشان میدهد. این مطالعه همچنین اهمیت شباهت محلی-IDF Jaccard (LIDFJ) را در بهبود یادآوری GLEAN نشان داده است. از طریق این مطالعه، ما همچنین مزایای تعبیه نوع و تنزل نوع را در بهبود دقت و یادآوری شناسایی کردیم.
علاوه بر این، ما مقیاس پذیری GLEAN را از نظر زمان اجرا هم ترازی ارزیابی کردیم. نتایج نشان میدهد که پارتیشنبندی برای بهبود مقیاسپذیری و امکان تراز کردن در مقیاس جهانی بسیار مهم است، با افزودن حاشیه پارتیشن به کاهش تعداد ترازهای از دست رفته با تأثیر جزئی بر زمان اجرا کمک میکند. نشان داده شد که استفاده از نوع جاسازی و شباهت جاسازی برچسب به نامزدهای تراز هرس اولیه در کاهش زمان اجرا بسیار موثر است. سیستم پیشنهادی ما برای هم ترازی نهادهای جغرافیایی از منابع ناهمگن در مقیاس بزرگ با موفقیت در عمل برای تراز کردن داده های مورد استفاده در تولید استفاده شد.
یکی از جهتگیریهای کاری بالقوه در آینده، اعمال مفهوم ارتباط نشانه بافت محلی در یک شبکه ترانسفورماتور برای رمزگذاری متن (مثلاً برچسبها و آدرسها) در ترکیب با مختصات موجودات جغرافیایی است. این به نمایش توکن اجازه می دهد تا به مختصات رمزگذاری شده نیز توجه کند. یکی دیگر از جهتگیریهای تحقیقاتی جالب، یادگیری بدون نظارت یا با نظارت ضعیف بازنمایی نهادهای جغرافیایی است. ایده این است که بتوانیم مدلی را یاد بگیریم که بتواند برچسب، نوع، آدرس و اطلاعات مختصات موجود را رمزگذاری کند، بدون اینکه نیاز به مقادیر زیادی داده برچسبگذاری شده باشد.