رویکردهایی برای خوشه‌بندی فراداده‌های جغرافیایی و تشخیص خودکار سری مجموعه داده‌های شبه مکانی

نمایش گسسته منابع در کاتالوگ های مکانی بر عملکرد بازیابی اطلاعات آنها تأثیر می گذارد. عملکرد را می‌توان با استفاده از خوشه‌های تولید خودکار منابع مرتبط، که مجموعه داده‌های شبه فضایی نامگذاری می‌کنیم، بهبود بخشید. این کار ارزیابی می‌کند که آیا یک فرآیند خوشه‌بندی می‌تواند مجموعه داده‌های شبه مکانی را با استفاده از اطلاعات متنی از عناصر فراداده ایجاد کند یا خیر. ما ترکیبی از انواع مختلف رویکردهای پاکسازی متن، نمایش‌های جاسازی کلمات و جمله (Word2Vec، GloVe، FastText، ELMo، Sentence BERT، و رمزگذار جملات جهانی) و تکنیک‌های خوشه‌بندی (K-Means، DBSCAN، OPTICS، و agglomerative) را ارزیابی می‌کنیم. خوشه بندی) برای کار. نتایج نشان می‌دهد که ترکیب نمایش‌های جاسازی کلمه با یک خوشه‌بندی مبتنی بر تجمع، مجموعه داده‌های شبه فضایی بهتری نسبت به روش‌های دیگر ایجاد می‌کند. علاوه بر این، ما دریافتیم که نمایش ELMo با خوشه بندی تجمعی نتایج خوبی را بدون هیچ مرحله پیش پردازشی برای تمیز کردن متن ایجاد می کند.

کلید واژه ها:

کاتالوگ های جغرافیایی ; فراداده ; بازیابی اطلاعات ؛ خوشه بندی ; جاسازی کلمات

۱٫ مقدمه

کاتالوگ های مکانی سیستم های کشف و دسترسی هستند که از فراداده به عنوان هدف برای جستجو در منابع مکانی استفاده می کنند [ ۱ ]. آنها معمولاً یا مجموعه داده های قابل دانلود مستقیم (مجموعه های قابل شناسایی از داده ها) یا خدماتی برای تجسم و دسترسی به این مجموعه داده ها هستند. فراداده نشان دهنده هدف، کیفیت، به موقع بودن، مکان، موضوعات و روابطی است که امکان کشف، ارزیابی و کاربرد منابع مکانی را در درون و فراتر از اهداف ارائه دهنده داده مبدأ فراهم می کند [ ۲ ].

هدف هر سیستم ذخیره سازی کاتالوگ این است که منابع موجود را قابل یافتن، در دسترس، قابل استفاده و قابل استفاده مجدد قرار دهد، که معمولاً به عنوان اصل FAIR شناخته می شود [ ۳ ]. با توجه به قابلیت یافتن، رویکرد رایج برای جستجوی داده های مکانی در کاتالوگ های مکانی، پرس و جو “مفهوم در مکان در زمان” است [ ۴ ]. یعنی کاربران انتظار دارند که کاتالوگ های مکانی اطلاعاتی را بر اساس ارتباط مفهومی، مکانی و زمانی خود با توجه به یک پرس و جو بازگردانند. این رویکرد طبیعی است، اما شناخته شده است که در دنیای واقعی بدون بهبود مؤلفه‌های مختلف فهرست مکانی با روش‌های هوشمندسازی ابرداده یا استفاده از موتورهای جستجوی پیشرفته، بی‌اثر است [ ۵ ].]. آثار متعددی در ادبیات وجود دارد که بهبودهای جستجو را در تحقق اصول FAIR از طریق افزودن معناشناسی و هستی‌شناسی به ابرداده، استفاده از الگوریتم‌های رتبه‌بندی جدید، یا تقویت ذخیره‌سازی داده پیشنهاد می‌کنند [ ۶ ، ۷ ، ۸ ، ۹ ].

با این حال، هیچ یک از این پیشنهادات به عدم تطابق بین ماهیت پیوسته اطلاعات مکانی و ماهیت گسسته تولید داده ها نمی پردازد. هنگامی که یک پرس و جو به یک کاتالوگ جغرافیایی درباره مفهومی که گستره فضایی وسیعی را پوشش می دهد ارسال می شود، احتمالاً هیچ یک از منابع بازیابی شده کل وسعت را پوشش نخواهد داد (بیشتر نتایج فقط بخش های کوچکی از این گستره را پوشش می دهند). به عنوان مثال، یک تحلیلگر می تواند داده های مربوط به رفتار هیدرولوژیکی در یک رشته کوه معین را در یک فهرست جستجو کند. با این حال، مجموعه داده های حوضه رودخانه معمولاً یک حوضه واحد را پوشش می دهند، زیرا هر حوضه از نظر توپوگرافی از حوضه های مجاور توسط یک رشته کوه جدا می شود که یک شکاف زهکشی را تشکیل می دهد. از این رو، یک پرس و جو برای رودخانه ها (مفهومی) که رشته کوه (موقعیت) را پوشش می دهد، مجموعه ای از مجموعه داده ها را نشان می دهد که همه حوضه های رودخانه را توصیف می کند که در آن رشته کوه به عنوان تقسیم زهکشی در میان بسیاری دیگر که حاوی مفاهیم رودخانه و رشته کوه هستند، عمل می کند. اگر هیچ منبع واحدی حاوی تمام اطلاعات درخواستی وجود نداشته باشد، تحلیلگر مجبور است تمام نتایج جستجو را بررسی کند تا نتایجی را که حاوی اطلاعات مرتبط هستند پیدا کند و محتوای آنها را ادغام کند.

ما فکر می کنیم که یکی از منابع اصلی این مشکل عدم همسویی بین نیازهای کاربر و اهداف تولید کننده داده است. تولیدکنندگان داده منابع را بر اساس حوزه مسئولیت خود ایجاد می کنند. کاربران کاتالوگ ها را بر اساس حوزه های مورد علاقه خود جستجو می کنند. این حوزه‌های مورد علاقه ممکن است با موضوعاتی تعریف شوند که یک پیوستار فضایی را از دیدگاه کاربر پوشش می‌دهند، که لزوماً با حوزه‌های مسئولیت تولیدکنندگان داده مطابقت ندارد. بنابراین، کاتالوگ های مکانی اغلب ممکن است منابعی را که تا حدی منطقه پرس و جو را پوشش می دهند، بدون اطلاعات زمینه ای مفید برای کشف مجموعه هایی از نتایج که به عنوان یک مجموعه دیده می شوند، کل منطقه پرس و جو را پوشش می دهند، برگردانند. ما در نتایج به این مشکل به عنوان تکه تکه شدن داده ها اشاره می کنیم. این مشکل را می توان با شناسایی مجموعه منابعی که از نظر مفهومی به همان لایه موضوعی تعلق دارند، حل کرد. از طرف ارائه‌دهنده، یک راه‌حل برای این چالش استفاده از مجموعه‌های داده مکانی است که مجموعه‌ای از مجموعه داده‌های مکانی هستند که ویژگی‌های مشابهی از موضوع، مقیاس یا هدف را به اشتراک می‌گذارند.۱۰ ]. با این حال، از دیدگاه کاربران، آنها کافی نیستند زیرا داده‌های مربوط به یک منطقه می‌توانند در مجموعه‌های داده مکانی مختلف از ارائه‌دهندگان داده‌های مختلف پراکنده شوند. بنابراین، یک راه حل کلی تر برای شناسایی روابط موضوعی در منابع یک کاتالوگ جغرافیایی، ایجاد مجموعه داده های فضایی مجازی از آنها، و بازگرداندن آنها به عنوان بخشی از مجموعه های نتایج پرس و جوی مرتبط مورد نیاز است.

اهداف و مشارکت

پیشنهاد ما برای مقابله با تکه تکه شدن داده ها تغییر روش ارائه نتایج در کاتالوگ های مکانی است. مشکل بازیابی اطلاعات توصیف شده (IR) به طور خاص به انتخاب یک الگوریتم IR مربوط نمی شود، زیرا همه منابع را می توان تا حدی مرتبط در نظر گرفت، بلکه به نحوه ارائه قطعات اطلاعات (منابع فردی) به کاربران مربوط می شود. به‌جای فهرستی از نتایج منفرد که بخش‌هایی از ناحیه درخواست‌شده را پوشش می‌دهد، فکر می‌کنیم که بهتر است این نتایج بر اساس سازگاری مکانی با توجه به وسعت مکانی مشخص‌شده در درخواست کاربر گروه‌بندی شوند. یعنی منابع سازگاری که به طور مشترک پاسخ بهتری به درخواست کاربر ارائه می دهند باید به صورت مجموعه ای نشان داده شوند.

برای تولید این مجموعه‌ها، ما پیشنهاد می‌کنیم که رکوردهای فراداده را خوشه‌بندی کنیم تا مجموعه‌هایی از منابع مشابه از ارائه‌دهندگان مختلف را که یک موضوع را توصیف می‌کنند شناسایی کنیم. به دلیل ایجاد ناهمگون، این منابع ممکن است فرمت، وضوح یا دانه بندی داده متفاوتی داشته باشند. با این حال، از آنجایی که آنها موضوع یکسانی دارند و اتحادیه آنها مناطق وسیع تری را نسبت به هر منبع جداگانه پوشش می دهد، این مجموعه ها می توانند توسط کاربران به عنوان پاسخی معتبر به جستجوی آنها درک شوند. ما می‌توانیم این مجموعه‌ها را به‌عنوان مجموعه داده‌های شبه فضایی نام ببریم، زیرا می‌توان آنها را به عنوان مجموعه‌های مجازی از مجموعه داده‌های فضایی توصیف کرد که برخی از ویژگی‌های منتسب به سری داده‌ها را به اشتراک می‌گذارند. یعنی این مجموعه ها مجموعه ای از مجموعه داده های فضایی با مشخصات محصول نزدیک هستند. این سری ها بر اساس شباهت، منابعی را که سازگار هستند، جمع می کنند، از نیاز کاربر به انجام این تحلیل جلوگیری می کند. این مجموعه‌ها احتمالاً حاوی منابعی با وضوح متفاوت، مناطق همپوشانی یا گستره زمانی متفاوت خواهند بود، اما، از دیدگاه کاربر، منابعی را جمع‌آوری می‌کنند که می‌توان آن‌ها را به‌طور کلی به روشی مشابه با مجموعه داده‌ها مشاهده کرد. در مورد مجموعه داده‌ها، همگنی آنها باعث می‌شود یکپارچه‌سازی مستقیم آنها انجام شود، در حالی که مجموعه داده‌های شبه مکانی پیشنهادی به هماهنگی محتوای آنها نیاز دارد. ما یکپارچه سازی داده ها را در این کار انجام نمی دهیم، اما این گام طبیعی بعدی پیشنهاد ارائه شده در این مقاله خواهد بود. به این ترتیب، کاربر می تواند اطلاعات موجود در مجموعه داده های شبه مکانی تعریف شده را به طور همگن به دست آورد. نواحی همپوشانی یا گستره زمانی متفاوت، اما از دیدگاه کاربر، منابعی را که می‌توان به صورت کلی به روشی مشابه به مجموعه داده‌ها مشاهده کرد، جمع‌آوری می‌کند. در مورد مجموعه داده‌ها، همگنی آنها باعث می‌شود یکپارچه‌سازی مستقیم آنها انجام شود، در حالی که مجموعه داده‌های شبه مکانی پیشنهادی به هماهنگی محتوای آنها نیاز دارد. ما یکپارچه سازی داده ها را در این کار انجام نمی دهیم، اما این گام طبیعی بعدی پیشنهاد ارائه شده در این مقاله خواهد بود. به این ترتیب، کاربر می تواند اطلاعات موجود در مجموعه داده های شبه مکانی تعریف شده را به طور همگن به دست آورد. نواحی همپوشانی یا گستره زمانی متفاوت، اما از دیدگاه کاربر، منابعی را که می‌توان به صورت کلی به روشی مشابه به مجموعه داده‌ها مشاهده کرد، جمع‌آوری می‌کند. در مورد مجموعه داده‌ها، همگنی آنها باعث می‌شود یکپارچه‌سازی مستقیم آنها انجام شود، در حالی که مجموعه داده‌های شبه مکانی پیشنهادی به هماهنگی محتوای آنها نیاز دارد. ما یکپارچه سازی داده ها را در این کار انجام نمی دهیم، اما این گام طبیعی بعدی پیشنهاد ارائه شده در این مقاله خواهد بود. به این ترتیب، کاربر می تواند اطلاعات موجود در مجموعه داده های شبه مکانی تعریف شده را به طور همگن به دست آورد. همگنی آنها باعث می شود که ادغام آنها مستقیم باشد، در حالی که مجموعه داده های شبه مکانی پیشنهادی نیاز به هماهنگی محتوای آنها دارد. ما یکپارچه سازی داده ها را در این کار انجام نمی دهیم، اما این گام طبیعی بعدی پیشنهاد ارائه شده در این مقاله خواهد بود. به این ترتیب، کاربر می تواند اطلاعات موجود در مجموعه داده های شبه مکانی تعریف شده را به طور همگن به دست آورد. همگنی آنها باعث می شود که ادغام آنها مستقیم باشد، در حالی که مجموعه داده های شبه مکانی پیشنهادی نیاز به هماهنگی محتوای آنها دارد. ما یکپارچه سازی داده ها را در این کار انجام نمی دهیم، اما این گام طبیعی بعدی پیشنهاد ارائه شده در این مقاله خواهد بود. به این ترتیب، کاربر می تواند اطلاعات موجود در مجموعه داده های شبه مکانی تعریف شده را به طور همگن به دست آورد.

این کار ارزیابی می‌کند که آیا فرآیندهای خوشه‌بندی پیشرفته می‌توانند به طور موثر منابع مکانی را در مجموعه داده‌های شبه فضایی جمع‌آوری کنند یا خیر، تنها با استفاده از اطلاعات متنی از عناصر موجود در سوابق فراداده مرتبط خود. برای شناسایی اینکه کدام فرآیند خوشه‌بندی برای این کار مناسب‌تر است، عملکرد به‌دست‌آمده با استفاده از تمیز کردن داده‌های مختلف، مدل‌های نمایش ویژگی و الگوریتم‌های خوشه‌بندی را مقایسه می‌کنیم. ارزیابی با مجموعه‌ای از ۶۳۰ رکورد ابرداده به‌دست‌آمده از کاتالوگ منتشر شده در IDEE (زیرساخت ملی داده‌های فضایی اسپانیا)، یک زیرساخت پیشرو داده‌های مکانی ملی در اروپا، انجام شده است. این رکوردها مطابق با استاندارد فراداده جغرافیایی ISO 19115 [ ۲]، حاوی اطلاعات متنی توصیفی در مورد طیف وسیعی از موضوعات مانند کاداستر، محیط زیست و زیرساخت ها است.

مشارکت‌های این مقاله بر دو حوزه متمرکز است: مطالعه مشکل IR کاتالوگ‌های مکانی فعلی و مقایسه گزینه‌های مختلف خوشه‌بندی که می‌تواند این مشکل را کاهش دهد. به سوالات تحقیق زیر می پردازد:

RQ1: چه چیزی باعث ناکارآمدی سیستم‌های IR فهرست مکانی فعلی می‌شود و چگونه می‌توان آنها را بهبود بخشید؟ برای پاسخ به این سوال، وضعیت فعلی فهرست‌های مکانی را تحلیل می‌کنیم و مشکلات IR مربوط به ناهماهنگی بین ماهیت پیوسته اطلاعات مکانی و ساختار مبتنی بر کتابخانه دیجیتال این فهرست‌های فراداده را توصیف می‌کنیم. به‌عنوان راه‌حلی برای کاهش این مسائل IR، ما تولید مجموعه‌هایی از منابع مرتبط را پیشنهاد می‌کنیم، که آن‌ها را مجموعه‌های داده شبه فضایی می‌نامیم، که برای بهبود نمایش نتایج پرس و جو تعریف شده‌اند.
RQ2: آیا تکنیک‌های خوشه‌بندی فعلی می‌توانند مجموعه داده‌های شبه فضایی با کیفیت خوبی تولید کنند؟ در اینجا، ما مجموعه‌ای از رکوردهای فراداده را با مجموعه داده‌های شبه مکانی برچسب‌گذاری شده دستی به عنوان خط پایه ایجاد کرده‌ایم. سپس، آزمایش‌هایی را با پیکربندی‌های فرآیند خوشه‌بندی چندگانه انجام داده‌ایم تا مشخص کنیم که آیا آنها می‌توانند به طور خودکار مجموعه‌ها را شناسایی کنند. ما انواع مختلفی از تمیز کردن داده های منبع را انجام می دهیم و نتایج را با استفاده از نمایش ویژگی کلاسیک TF-IDF با توجه به جاسازی های مدرن (Word2Vec، GloVe، FastText، ELMo، Sentence BERT و Universal Sentence Encoder) مقایسه می کنیم. به عنوان الگوریتم های خوشه بندی، ما K-Means، DBSCAN، OPTICS و خوشه بندی Agglomerative را مقایسه کرده ایم.
RQ3: کدام فرآیندهای خوشه بندی برای این کار مناسب هستند؟ فرآیندهای مختلف انجام شده با توجه به مجموعه‌های برچسب‌گذاری شده دستی با استفاده از V-measure و Adjusted-Mutual-Information مقایسه می‌شوند. جدای از شناسایی بهترین پیکربندی‌ها، ما همچنین به دنبال راه‌حل‌های کلی هستیم (راه‌حل‌هایی که متن ورودی را به هیچ وجه از قبل پردازش نمی‌کنند) تا مشخص کنیم که آیا آن‌ها به اندازه کافی خوب هستند که توسط یک کاتالوگ استفاده شوند یا خیر.

این مقاله به صورت زیر سازماندهی شده است: بخش ۲ آخرین تکنیک‌های خوشه‌بندی را برای تولید مجموعه داده‌های شبه فضایی مورد نظر توصیف می‌کند. بخش ۳ مشکلاتی را که باعث تکه تکه شدن داده ها در کاتالوگ های مکانی می شود معرفی می کند. بخش ۴ ویژگی های فرآیندهای خوشه بندی مورد استفاده در آزمایش ها را توضیح می دهد. سپس، بخش ۵ مجموعه داده ها و تنظیمات آزمایشی مورد استفاده برای آزمایش ها را ارائه می دهد و بخش ۶ نتایج به دست آمده را با توجه به مجموعه مرجع انتخاب شده مقایسه می کند. مقاله با بحث در مورد نتایج، نتیجه‌گیری و چشم‌اندازی در مورد کار آینده به پایان می‌رسد.

۲٫ کارهای مرتبط

در زمینه کاتالوگ جغرافیایی، کارهای متعددی وجود داشته است که سعی در بهبود فرآیندهای جستجو به طرق مختلف دارد. لارسون و فرانتیرا [ ۱۱ ] مقایسه ای از چندین الگوریتم رتبه بندی برای اشیاء جغرافیایی ارجاع داده شده از جمله همپوشانی ساده، توپولوژیکی و وسعت انجام می دهند، سپس یک رتبه بندی فضایی احتمالی بر اساس رگرسیون لجستیک پیشنهاد می کنند که از مساحت همپوشانی به عنوان عامل تشابه اصلی استفاده می کند. ژان و همکاران [ ۱۲ ] یک مدل توصیف معنایی برای اطلاعات جغرافیایی پیشنهاد می‌کند که با استفاده از هستی‌شناسی‌ها می‌تواند با مشکلات ناهمگونی در توصیف‌ها مقابله کند. این پیشنهاد بر این متمرکز است که به کاربر اجازه می دهد تا معنای سؤالات خود را بیان کند تا نتایج به دست آمده بهبود یابد. ژانگ و همکاران [ ۱۳] رویکردی برای استخراج داده‌های مکانی از منابع متعدد، مدل‌سازی آن به‌عنوان RDF برای حذف ناهمگونی و پیوند آن با استفاده از یک الگوریتم تطبیق معنایی نشان می‌دهد. د آندراد و همکاران [ ۱۴ ] محدودیت‌هایی را که یافتن داده‌های مکانی را در فهرست‌های کنونی جغرافیایی دشوار می‌سازد، ذکر می‌کنند. برخی از مشکلات شناسایی شده استفاده از یک رکورد واحد برای توصیف انواع ویژگی در یک سرویس، فقدان معنایی در توضیحات و فقدان رتبه بندی مناسب برای سازماندهی نتایج در یک پرس و جو است. آنها چارچوبی با معیارهای رتبه بندی برای بهبود پرس و جوهای مکانی، معنایی، زمانی و چند بعدی پیشنهاد می کنند. لی و همکاران [ ۱۵] یک فرآیند بازیابی اطلاعات را برای کاتالوگ های مکانی توصیف می کند که از تحلیل نهفته معنایی برای بهبود اثربخشی موتورهای جستجو استفاده می کند. این امکان کشف معنایی بین الگوهای کلمه را فراهم می کند که امکان شناسایی منابع مرتبط را فراهم می کند که مستقیماً شامل عبارات پرس و جو نیستند. فوگازا و همکاران [ ۱۶ ] و Fugazza و همکاران. [ ۱۷ ] روشی را برای افزودن ویژگی‌های معنایی به ابرداده‌ها پیشنهاد می‌کند که امکان تفویض ابرداده را فراهم می‌کند و شناسایی روابط را تسهیل می‌کند و مدیریت تکامل آنها را ساده می‌کند. میائو و همکاران [ ۱۸ ] نشان می دهد که چگونه می توان اثربخشی کشف داده های مکانی را با استفاده از یک مدل اندازه گیری شباهت مکانی-زمانی بهبود بخشید. در نهایت لی و همکاران [ ۱۹] یک راه حل یادگیری عمیق را برای بهبود رتبه بندی جستجوی داده های مکانی با استفاده از گزارش های تعاملات قبلی کاربر در کاتالوگ توصیف می کند. آنها ارتباط داده ها را با توجه به تعامل کاربر مدل می کنند و از یک مدل رتبه بندی یادگیری عمیق برای تعیین ترتیب نتایج برای پرس و جوها استفاده می کنند. آنها یک معیار تشابه پیشنهاد می کنند که از حداکثر فاصله معنایی بین هر جفت گره در هستی شناسی مورد استفاده برای تطبیق و فاصله وزنی از پایین ترین گره جد مشترک تا گره ریشه استفاده می کند.

در زمینه کتابخانه‌های دیجیتال، خوشه‌بندی اغلب برای تولید مجموعه‌ای از منابع مرتبط که جستجو و مرور را تسهیل می‌کنند، استفاده شده است. آگاروال و ژای [ ۲۰ ] مجموعه ای دقیق از تکنیک های کلاسیک خوشه بندی برای سازماندهی، مرور، خلاصه سازی و طبقه بندی اسناد می سازند. رکوردهای فراداده را می توان به عنوان اسناد کوتاهی در نظر گرفت که در آنها توضیحات نقش محتوای سند را ایفا می کند و بنابراین می توان بر اساس شباهت آنها خوشه بندی کرد.

یک جنبه اساسی خوشه بندی، نمایش ویژگی است. فرکانس سند، نمایه سازی معنایی پنهان، و فاکتورسازی ماتریس غیر منفی راه حل های کلاسیک برای این کار هستند [ ۲۰ ]. تعبیه کلمه یک نمایش کلمه اخیر است که برای خوشه بندی نیز مناسب است [ ۲۱ ، ۲۲ ]. کلمات را به یک مدل فضای برداری چند بعدی نگاشت می کند تا کلمات مشابه/مرتبط معنایی در آن فضا نزدیک باشند. چندین معماری شبکه عصبی وجود دارد که می تواند این تعبیه ها را ایجاد کند. Word2Vec [ ۲۳ ]، GloVe [ ۲۴ ]، یا FastText [ ۲۵ ]، ELMo [ ۲۶ ]، BERT [ ۲۷ ]، یا GPT-3 [ ۲۸ ]] از محبوب ترین ها هستند. آنها از معماری های مستقل از زمینه به معماری های وابسته به متن تبدیل شده اند که نتایج بهتری را برای درک معنایی کلمات ایجاد می کنند. از آنجایی که تعبیه کلمات بازنمایی کلمات هستند، برای نشان دادن جملات متنی، Arora و همکارانش. [ ۲۹ ] معانی مختلفی برای واژه جاسازی کلمات در یک جمله پیشنهاد کنید. جاسازی جملات تکامل جاسازی های کلمه برای رمزگذاری جملات کامل در نمایش های برداری است. آنها این مزیت را دارند که به طور مستقیم یک جمله را بدون در نظر گرفتن هر کلمه به طور مستقل در نظر بگیرند. محبوب ترین معماری ها Doc2Vec [ ۳۰ ]، Sentence BERT [ ۳۱ ]، InferSent [ ۳۲ ] و رمزگذار جمله جهانی [ ۳۳ ] هستند.]. نمونه ای از استفاده از embedding ها در خوشه بندی کوسنر و همکاران است. [ ۳۴ ]، که از حداقل فاصله بین جاسازی اسناد خود به عنوان معیار فاصله استفاده می کنند. به طور مشابه، ژانگ و همکاران. [ ۳۵ ] تولید طبقه بندی های طبقه بندی از اسناد را با استفاده از جاسازی کلمه محتوای سند توصیف می کند. آنها یک ماژول جاسازی را تعریف می کنند که تعبیه های متمایز را در سطوح مختلف طبقه بندی می آموزد. هو و همکاران [ ۳۶ ] تکامل موضوعات در مقالات علمی را از طریق نمایش آنها به عنوان تعبیه‌های Word2Vec و اندازه‌گیری همبستگی فضایی آنها در فضای تعبیه‌ها تحلیل می‌کنند. آنها می سنجید که چگونه محبوبیت برخی از کلمات کلیدی بر کلیدواژه های اطراف تأثیر می گذارد. دیاز و همکاران [ ۳۷] تعبیه داده های متنی مکانی-زمانی را در نمایشی پیشنهاد می کند که امکان شناسایی الگوهای مرتبط با زمان و مکان فعالیت های انسانی توصیف شده به عنوان متن را فراهم می کند. مدل آنها اجازه می دهد تا دوره ها یا مکان های مرتبط با یک جمله و بالعکس را پیشنهاد کنند. لی و همکاران [ ۳۸ ] خوشه بندی متن را با استفاده از جمله BERT به عنوان رمزگذاری جملات متنی، یک لایه وزنی برای افزایش ارتباط جملات به عنوان تابعی از موجودیت های نام برده شده و K-means به عنوان الگوریتم خوشه بندی انجام می دهد. آرناس مارکز و همکاران [ ۳۹] استفاده از یک شبکه عصبی کانولوشن را برای شناسایی موضوعات مورد علاقه در مجموعه ای از پیام های TripAdvisor با استفاده از جاسازی Word2Vec از کلمات در اسناد به عنوان ورودی توصیف می کند. آنها این رویکرد را با توجه به کدگذاری نهفته تخصیص دیریکله متون و میانگین Word2Vec مقایسه می کنند.

الگوریتم‌های خوشه‌بندی چندگانه می‌توانند از این نمایش‌های ویژگی استفاده کنند. الگوریتم‌های پرکاربرد راه‌حل‌های مبتنی بر فاصله مانند K-means، خوشه‌بندی فضایی مبتنی بر چگالی برنامه‌های کاربردی با نویز (DBSCAN)، یا نقاط ترتیب برای شناسایی ساختار خوشه‌بندی (OPTICS) و موارد احتمالی مانند Indexing معنایی پنهان احتمالی (PLSI) هستند. ) [ ۲۰ ]. کار زولا و همکاران. [ ۴۰ ] نمونه خوبی از این است که چگونه برخی از این تکنیک های خوشه بندی در حال حاضر در زمینه داده های مکانی برای شناسایی الگوها در مجموعه های متنی استفاده می شوند. آنها مکان کاربر توییتر را بر اساس توییت‌هایشان با استفاده از فرکانس‌های Google Trends از اسم‌های توییت و خوشه‌بندی برای شناسایی محتمل‌ترین مکان تخمین می‌زنند. نیومن و همکاران [ ۴۱] نشان می‌دهد که چگونه مدل‌های موضوعی آماری مجموعه‌ای از رکوردهای فراداده را به صورت موضوعی طبقه‌بندی می‌کنند و جستجوی وجهی را ارائه می‌کنند. لاکاستا و همکاران [ ۴۲ ] یک فرآیند خوشه بندی را برای ابرداده ها توصیف می کند که از ساختار سلسله مراتبی مفاهیم موجود در سیستم های سازماندهی دانش (KOS) برای بهبود نتایج خوشه بندی استفاده می کند. توماس و خان [ ۴۳ ] یک فرآیند خوشه بندی را برای اسناد پیشنهاد می کنند که از اطلاعات فراداده مرتبط با هر سند برای بهبود کیفیت خوشه ها استفاده می کند. راجان و همکاران [ ۴۴ ] یک فرآیند خوشه‌بندی را برای تجمیع توصیفات ثبت اختراع در گروه‌های مشابه برای تسهیل فرآیند جستجو در پایگاه‌های اطلاعاتی ثبت اختراع به تصویر می‌کشد. رکیب و همکاران [ ۴۵] یک روش طبقه بندی تکراری پیشنهاد می کند که خوشه بندی متون کوتاه را بهبود می بخشد. این کار با شناسایی نقاط پرت در طول فرآیند خوشه بندی و تغییر خوشه هایی که به آنها اختصاص داده شده اند انجام می شود. آنها این بهبود را برای انواع مختلف K-means و انواع خوشه بندی انبوه سلسله مراتبی اعمال می کنند تا قابلیت کاربرد در الگوریتم های خوشه بندی چندگانه را تعیین کنند. کای و همکاران [ ۴۶ ] الگوریتم خوشه‌بندی تطبیقی DBSCAN را پیشنهاد می‌کند، یک نوع DBSCAN برای مقابله با مسائل مربوط به اتصالات خطی بین خوشه‌های هدف و پیچیدگی پارامترسازی. از یک تقسیم کننده داده و ادغام هماهنگ در مراحل خوشه بندی محلی و جهانی استفاده می کند. این اجازه می دهد تا به صورت پویا خوشه ها را از محلی به جهانی کشف کنید. لو و همکاران [ ۴۷] تکامل روش های تحقیق در جامعه علم اطلاعات چین را تجزیه و تحلیل کند. چندین ویژگی، مانند زمان انتشار، سن محقق، تازگی یا تنوع مقاله، برای تجزیه و تحلیل در نظر گرفته شده است. برای شناسایی شباهت‌ها بر اساس دوره، موضوع یا محقق، آنها آثار موجود در مجموعه تحلیل‌شده را با استفاده از شباهت فاصله اقلیدسی، تقسیم‌بندی حول Medoids و K-means خوشه‌بندی می‌کنند. Misztal-Radecka و Indorkhya [ ۴۸] یک الگوریتم خوشه‌بندی سلسله مراتبی آگاه از تعصب را برای بهبود سیستم‌های توصیه با شناسایی خوشه‌هایی از کاربران با توصیه‌های نامناسب توصیف می‌کند. این یک تغییر از K-means است که در آن تقسیم به جای واریانس حداقل به بایاس های بالا بستگی دارد. آنها این راه حل را با توجه به سایر گونه های K-means، خوشه بندی تجمعی، BDSCAN سلسله مراتبی و فاکتور دورافتاده محلی بین راه حل های دیگر مقایسه می کنند.

کار ارائه شده در این مقاله مشابه کارهای توصیف شده قبلی است که از تکنیک های خوشه بندی برای شناسایی شباهت ها در مجموعه های کتابخانه دیجیتال استفاده می کنند. با این حال، در مورد ما، ما خوشه‌هایی را در توضیحات فراداده جستجو می‌کنیم که می‌توانند به‌عنوان مجموعه داده‌های شبه مکانی طبقه‌بندی شوند، که محدودیت‌هایی در نحوه انجام فرآیند خوشه‌بندی ایجاد می‌کند. برای تجزیه و تحلیل مناسب بودن تکنیک ها و مدل های مختلف، مجموعه ای از تکنیک های خوشه بندی کلاسیک و مدرن را با هم مقایسه می کنیم. این شامل فرآیندهای مختلف پاکسازی داده ها، مدل های نمایش ویژگی و پارامترسازی الگوریتم های خوشه بندی می شود.

۳٫ کاتالوگ های جغرافیایی و زنجیره داده های مکانی

کاتالوگ های مکانی مخازن منابع مکانی هستند که توسط چندین ارائه دهنده تعریف شده و از طریق ابرداده توصیف شده اند. ارائه دهندگان داده به دلیل تعهدات قانونی، محدودیت های اقتصادی و تغییر اهداف در طول زمان بر حوزه های خاصی تمرکز می کنند.

این فهرست‌ها از نظر فن‌آوری شبیه به کتابخانه‌های دیجیتال هستند، زیرا محتوای خود را مانند هر منبع دیجیتال مجزا دیگری (مثلاً یک عکس، یک کتاب یا یک ویدیو) مدیریت می‌کنند. با این حال، بعد فضایی باعث می‌شود محتوای کاتالوگ جغرافیایی مجموعه‌ای از مناطق روی سطح زمین در مورد موضوعات ناهمگن باشد. احمد و علی [ ۴۹ ] مجموعه ای جامع از خدمات را با ۱۵۳ کاتالوگ فعال نشان می دهند که داده های مکانی را در سراسر جهان ارائه می دهند که از این رویکرد پیروی می کنند. در میان آنها، چند نمونه مرتبط عبارتند از کاتالوگ پان-اروپایی INSPIRE ( https://inspire-geoportal.ec.europa.eu/ ، دسترسی به ۲۶ نوامبر ۲۰۲۱) و کاتالوگ های ملی ایالات متحده آمریکا (GeoPlatform) ( https:// www.geoplatform.gov/، قابل دسترسی در ۲۶ نوامبر ۲۰۲۱)، اسپانیا (IDEE) ( https://www.idee.es/es ، مشاهده شده در ۲۶ نوامبر ۲۰۲۱)، بریتانیا (Data.Gov) ( https://data.gov.uk ، در ۲۶ نوامبر ۲۰۲۱، و کانادا (GeoDiscovery) ( https://geodiscover.alberta.ca/geoporta ، در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).

این کاتالوگ ها راه حل ساده ای برای انتشار منابع ارائه می دهند، اما نحوه ارائه نتایج، قابلیت استفاده آنها را محدود می کند. اطلاعات جغرافیایی زنجیره‌ای را در اطراف زمین تشکیل می‌دهد که با موقعیت مکانی (نقطه، خط یا چندضلعی) و مضمون مشخص می‌شود، که انتزاعی مفهومی از ماهیت/هدف داده‌های ارائه‌شده است. حتی انواع جغرافیایی گسسته، مانند مکان‌های درختی، رودخانه‌ها یا خیابان‌ها، بخشی از مجموعه بزرگ‌تری هستند که تمام سطح زمین را پوشش می‌دهند (مثلاً همه درختان، رودخانه‌ها یا خیابان‌های روی زمین). هر گونه تقسیم این پیوستار مصنوعی است و مدیریت داده ها را پیچیده تر می کند، زیرا پیوستار باید بازسازی شود تا اطلاعات توزیع شده در چند قطعه به دست آید. این به طور غیرمستقیم عملکرد هر سیستم جستجویی را با استفاده از این رویکرد کاهش می دهد زیرا نتایج داده های جزئی به عنوان نتایج کامل ارائه می شوند. این باعث می شود که نتایج جستجوهای “مفهوم در مکان در زمان” ناقص باشد، زیرا در بیشتر موارد، ناحیه مورد نظر کاربران با پارتیشن دلخواه داده های مکانی مطابقت ندارد. گویی هر منبع مکانی یک «صفحه کتاب» است که نویسنده، عنوان صفحه، تاریخ ایجاد، یا ناشر موجود در ابرداده می‌تواند به تصمیم‌گیری درباره اینکه کدام «صفحه کتاب» با نیازهای کاربر بهتر است، کمک کند، حتی اگر اطلاعات مورد نیاز ممکن است در تمام “کتاب” یافت می شود. تکه تکه شدن داده های مکانی چالش های موجود در مورد تولید، به روز رسانی و بهبود فراداده را افزایش می دهد. منطقه ای که توسط کاربران درخواست می شود با پارتیشن دلخواه داده های مکانی مطابقت ندارد. گویی هر منبع مکانی یک «صفحه کتاب» است که نویسنده، عنوان صفحه، تاریخ ایجاد، یا ناشر موجود در ابرداده می‌تواند به تصمیم‌گیری درباره اینکه کدام «صفحه کتاب» با نیازهای کاربر بهتر است، کمک کند، حتی اگر اطلاعات مورد نیاز ممکن است در تمام “کتاب” یافت می شود. تکه تکه شدن داده های مکانی چالش های موجود در مورد تولید، به روز رسانی و بهبود فراداده را افزایش می دهد. منطقه ای که توسط کاربران درخواست می شود با پارتیشن دلخواه داده های مکانی مطابقت ندارد. گویی هر منبع مکانی یک «صفحه کتاب» است که نویسنده، عنوان صفحه، تاریخ ایجاد، یا ناشر موجود در ابرداده می‌تواند به تصمیم‌گیری درباره اینکه کدام «صفحه کتاب» با نیازهای کاربر بهتر است، کمک کند، حتی اگر اطلاعات مورد نیاز ممکن است در تمام “کتاب” یافت می شود. تکه تکه شدن داده های مکانی چالش های موجود در مورد تولید، به روز رسانی و بهبود فراداده را افزایش می دهد.۵۰ ] و حفظ ابرداده های کامل، به روز و مفید را دشوار می کند. این امر باعث ناهمگونی و عدم هماهنگی در توصیفات حتی در نسخه های همان منبع می شود که یکی از دلایل عملکرد ضعیف آنها است [ ۵ ]. در نهایت، از آنجایی که نتایج ارائه شده تنها تا حدی مرتبط هستند، ارائه آنها به روشی مناسب برای کاربران دشوار است. یک لیست متوالی از نتایج زمانی گیج کننده است که نتایج ارائه شده تنها قطعاتی از داده ها در یک موضوع خاص باشد.

شکل ۱برخی از مشکلات تکه تکه شدن فضایی را به روشی ساده نشان می دهد. این پوشش منابع LIDAR در جنوب اسپانیا از ارائه دهندگان مختلف (شورای استانی مالاگا، کادیز، و هوئلوا) را نشان می دهد. آنها حاوی محتوای معادل هستند، اما هیچ ارتباطی بین آنها وجود ندارد. در کاتالوگ‌های جغرافیایی فعلی، یک پرس و جو که تمام جنوب اسپانیا را پوشش می‌دهد، فهرستی حاوی سه نتیجه (در میان سایر موارد) را نشان می‌دهد، زیرا آنها تا حدی نیازهای کاربر را پوشش می‌دهند. سپس، کاربر باید کل لیست نتایج را به صورت دستی بررسی کند تا مواردی را که نیازهای او را پوشش می دهد شناسایی کند. این ممکن است ساده به نظر برسد، اما اگر صدها منبع با مسائل مشابه وجود داشته باشد، یافتن منابع مرتبط می‌تواند زمان‌بر باشد. به عنوان مثال، یک پرس و جو در مورد تصویربرداری لیزری (LIDAR) در کاتالوگ اسپانیایی ۳۰۵ نتیجه را در مورد موضوعاتی مانند پوشش زمین ارائه می دهد. اطلاعات جنگل، آب، یا سواحل، از جمله. آنها بدون هیچ ترتیبی ارائه می شوند که بتواند شناسایی مواردی را که به طور ضمنی مرتبط هستند، ساده کند.

مشکل اینجاست که نیازهای فضایی کاربر با سازمان کلاسیک مبتنی بر کتابخانه دیجیتال سازگار نیست. به دلیل تقسیم بندی داده های مکانی، منبعی که داده های مورد نیاز کاربر را پوشش می دهد ممکن است حتی وجود نداشته باشد. در این زمینه، برای ارائه قابلیت‌های جستجوی خوب و بهبود رضایت کاربر، باید کاتالوگ‌های مکانی را از سیستم‌های IR برای تولیدکنندگان داده که با سوابق فراداده‌ای مستقل با ویژگی‌های فضایی سروکار دارند، به سیستم‌های IR برای مصرف‌کنندگان داده که با لایه‌های محتوای پیوسته سر و کار دارند، توسعه دهیم. هنیگ و بلگی [ ۵۱ ] و ماسو و همکاران. [ ۵۲] قبلاً نیاز به ساخت SDI های کاربر محور به جای تمرکز بر محصولات یا فرآیندها را برجسته کرده است. به طور خاص، آنها نیاز به بهبود توضیحات فراداده در کاتالوگ های مکانی را برای تمرکز بر نیازهای کاربر و جلوگیری از قطع ارتباط بین داده ها و توضیحات فراداده توصیف می کنند.

برنامه‌هایی مانند Google Maps ( https://www.google.com/ ، دسترسی به ۲۶ نوامبر ۲۰۲۱) یا Open Street Map ( https://www.openstreetmap.org/ ، مشاهده شده در ۲۶ نوامبر ۲۰۲۱) نشان می‌دهند که لایه‌های پیوسته اطلاعات مکانی تجربه کاربر را در برخی سناریوها بهبود می بخشد. آنها لایه های یکپارچه اطلاعات را برای چند نوع داده مانند نقشه برداری، جاده ها و تجارت تجاری ارائه می دهند، به طوری که کاربران می توانند مستقیماً اطلاعات را در هر نقطه از کره زمین انتخاب، تجسم یا کپی کنند. این فرآیند جستجو را ساده می کند و مستقل از منطقه درخواستی، تمام اطلاعات در یک منبع واحد با فرمت و کیفیت یکسان است.

تعریف چنین لایه های پیوسته در حال حاضر قابل اجرا نیست. علاوه بر هزینه هنگفت تمیز کردن، هماهنگ سازی و یکپارچه سازی داده های موجود، مدیریت دستی و به روز رسانی منابع ایجاد شده توسط چندین ارائه دهنده با علایق مختلف بسیار دشوار خواهد بود. یک جایگزین برای این کار دستی، توسعه فرآیندی برای شناسایی خودکار منابع سازگار با موضوع است، به طوری که آنها می توانند به عنوان مجموعه ای در لیست های نتایج ارائه شوند. مجموعه‌های قابل شناسایی منابع مرتبط با موضوع، لایه‌های پیوسته نیستند، اما می‌توانند نزدیک‌ترین نمایش ممکن با ابرداده‌های موجود باشند. در آن شکل، برای کاربر ساده‌تر خواهد بود که تمام منابع مورد نیاز برای پاسخ به سؤال خود را به دست آورد. این ایده از مفهوم مجموعه داده های فضایی ناشی می شود. هنگامی که یک ارائه دهنده یک مجموعه داده مکانی از مجموعه ای از منابع یکنواخت و مشابه ایجاد می کند، کاربر می تواند آنها را به عنوان یک منبع واحد مدیریت کند. مجموعه‌هایی را که می‌خواهیم شناسایی کنیم، می‌توان به‌عنوان مجموعه داده‌های شبه فضایی نام‌گذاری کرد، زیرا، همانطور که قبلاً اشاره شد، مجموعه‌ای از مجموعه داده‌های مکانی با مشخصات محصول نزدیک هستند که می‌توانند به سیستم‌های IR برای ارائه نتایج فشرده‌تر کمک کنند.

فرآیند IR بهبود یافته برای کاتالوگ های مکانی با استفاده از این مجموعه داده های شبه مکانی در شکل ۲ نشان داده شده است . همه الگوریتم‌ها و روش‌های مورد استفاده در فرآیند جستجوی کاتالوگ‌های مکانی فعلی، فهرست رتبه‌بندی‌شده‌ای از نتایج را برمی‌گردانند. پیشنهاد ما شناسایی روابط بین مجموعه داده ها (سری داده های شبه فضایی) و استفاده از آنها برای خوشه بندی لیست نتایج در مرحله پس از پردازش پرس و جو است. این کار شامل گروه بندی منابع در لیست نتایج است که بخشی از همان مجموعه داده های شبه مکانی هستند و آنها را در بهترین موقعیت های رتبه بندی شده مجموعه نتایج قرار می دهد. میز ۱نشان می دهد که چگونه این تغییر سازمانی لیست نتایج را بهبود می بخشد. به دنبال مثال قبلی LIDAR، جدول زیرمجموعه انتخابی از ۳۰۵ نتیجه یک پرس و جو را با عبارت LIDAR نشان می دهد که طبق تعریف ما از مجموعه داده های شبه فضایی به کاتالوگ مکانی اسپانیایی ارسال شده است. نتایج برای اهداف توضیحی ساده‌سازی شده‌اند تا نشان دهند که چگونه یک فهرست خوشه‌ای از نتایج، روابطی را نشان می‌دهد که اگر فهرست سازماندهی نشده بود، پنهان می‌شدند. چند محصول چندین بار در لیست نتایج برای یک نوع داده در مناطق مختلف مانند نقاط LIDAR برای بخش‌های اداری، Photogrammetric-LIDAR برای حوضه رودخانه‌ها یا مدل‌های ارتفاعی دیجیتالی رودخانه‌ها و سواحل وجود دارد. گروه های نشان داده شده شباهت هایی در عناوین خود دارند، اما در بسیاری از موارد این کافی نیست. زیرا ممکن است توضیحات نشان دهد که محتوای آنها بسیار متفاوت است (به عنوان مثال، ابر نقاط آتش سوزی Cerro Muriano و حوضه رودخانه Guadalete-Barbate)، یا عناوین آنها ممکن است متفاوت باشد حتی اگر توضیحات آنها مشابه باشد. همچنین مهم است که توجه داشته باشید که خوشه های نشان داده شده فقط تا حدی سازگار هستند. آنها مربوط به سال های مختلف هستند و اگر عمیقاً مشاهده شوند، ممکن است فرمت ها، وضوح یا سایر جنبه های فنی ناسازگار متفاوتی داشته باشند. با این حال، از دیدگاه کاربر، دانستن آسان انواع منابع در دسترس یک پیشرفت مرتبط است، زیرا بخش یکپارچه‌سازی می‌تواند توسط او بر روی زیرمجموعه انتخابی نهایی که نیازهای او را برآورده می‌کند، انجام دهد. همچنین مهم است که توجه داشته باشید که خوشه های نشان داده شده فقط تا حدی سازگار هستند. آنها مربوط به سال های مختلف هستند و اگر عمیقاً مشاهده شوند، ممکن است فرمت ها، وضوح یا سایر جنبه های فنی ناسازگار متفاوتی داشته باشند. با این حال، از دیدگاه کاربر، دانستن آسان انواع منابع در دسترس یک پیشرفت مرتبط است، زیرا بخش یکپارچه‌سازی می‌تواند توسط او بر روی زیرمجموعه انتخابی نهایی که نیازهای او را برآورده می‌کند، انجام دهد. همچنین مهم است که توجه داشته باشید که خوشه های نشان داده شده فقط تا حدی سازگار هستند. آنها مربوط به سال های مختلف هستند و اگر عمیقاً مشاهده شوند، ممکن است فرمت ها، وضوح یا سایر جنبه های فنی ناسازگار متفاوتی داشته باشند. با این حال، از دیدگاه کاربر، دانستن آسان انواع منابع در دسترس یک پیشرفت مرتبط است، زیرا بخش یکپارچه‌سازی می‌تواند توسط او بر روی زیرمجموعه انتخابی نهایی که نیازهای او را برآورده می‌کند، انجام دهد.

شناسایی این مجموعه داده‌های شبه مکانی کار آسانی نیست زیرا منابع موجود به طور یکنواخت توزیع نشده‌اند و ویژگی‌های متفاوتی دارند. توضیحات در فراداده آنها حاوی اصطلاحات حوزه فنی، مانند مقیاس، وضوح، یا قالب است. نام مکان های متنی که مکمل جعبه های مرزبندی فضایی عددی هستند. و اطلاعات مختلف در مورد موضوعات متعدد داده های توصیف شده (به عنوان مثال، کشاورزی، محیط زیست، آلودگی، یا کاداستر).

ادبیات آثاری در این زمینه دارد. به عنوان مثال، لاکاستا و همکاران. [ ۵۳ ] یک فرآیند IR را برای کاتالوگ های داده های جغرافیایی توصیف می کند که بر حل این مشکل تکه تکه شدن با شناسایی روابط فضایی/موضوعی ضمنی بین نتایج پرس و جو تمرکز می کند. فرآیند آنها بر یافتن منابعی که از نظر مکانی و موضوعی با پرس و جوی کاربر سازگار هستند و شناسایی موضوع و همپوشانی فضایی آنها متمرکز است. مجموعه‌های نتایجی که به این ترتیب ساخته شده‌اند، درخواست‌های کاربر را بهتر از هر منبع به‌صورت جداگانه انجام می‌دهند (بخش بزرگ‌تری از منطقه مورد نیاز برای کلمات کلیدی مورد نیاز را پوشش می‌دهند). با این حال، نیاز به ساخت پویا مجموعه نتایج تجمیع شده از هر پرس و جو انجام شده و پیچیدگی انتخاب نتایج سازگار موضوعی، کاربرد آن را پیچیده می کند. پیش از این، Latre و همکاران. [۵۴ ] فرآیندی را برای ادغام داده‌های هیدرولوژیکی با ادغام هستی‌شناسی‌هایی که مدل‌های آن‌ها را نشان می‌دهند، پیشنهاد کرد. این فرآیند به بهای ایجاد هستی‌شناسی‌های پیچیده که داده‌ها را توصیف می‌کند، امکان ارائه یک نمای واحد از مجموعه‌های داده‌های تکه‌تکه‌شده را فراهم می‌کند.

ما فکر می‌کنیم که خوشه‌بندی یک رویکرد مناسب برای وظایف تجمیع داده‌ها مانند آنچه در این مقاله پیشنهاد شده است. با این حال، داده های مکانی دارای ویژگی هایی هستند که این فرآیند را دشوار می کند. اولاً، منابع باید بر اساس شباهت موضوعی و نه با ابعاد دیگر مانند مکان، قالب یا وضوح بین سایرین تجمیع شوند. علاوه بر این، تعداد مجموعه ها و ابعاد آنها ممکن است ناهمگن باشد و بسیاری از منابع ممکن است هیچ ارتباط موضوعی با بقیه نداشته باشند (آنها مستقل هستند). حل این مسائل ممکن است، اما نیاز به فرآیندهایی دارد که با داده های تجزیه و تحلیل شده سازگار شوند که ممکن است به مجموعه های دیگر تعمیم داده نشود. با توجه به این ملاحظات، هدف ما شناسایی نه تنها بهترین راه حل خوشه بندی، بلکه بهترین راه حل بین راه حل هایی بدون پیش پردازش داده ها بوده است.

۴٫ چارچوب ارزیابی

برای شناسایی مجموعه داده‌های شبه مکانی در یک کاتالوگ جغرافیایی، اطلاعات متنی را در رکوردهای فراداده موجود خوشه‌بندی می‌کنیم. شکل ۳ جزئیات این فرآیند را نشان می دهد. پاکسازی ویژگی‌های فراداده انتخابی را انجام می‌دهد، آنها را به ویژگی‌ها تبدیل می‌کند و آنها را در مجموعه داده‌های شبه مکانی خوشه‌بندی می‌کند. برای هر مرحله، ما راه حل های مختلف مورد استفاده در ادبیات را مقایسه کرده ایم. خط لوله توسعه یافته شامل فرآیندهای کلاسیک برای حذف عناصر نامطلوب است که بر نتایج تأثیر می گذارد. با این حال، از آنجایی که مراحل تمیز کردن مختص داده‌های پردازش شده است، پیکربندی‌های فرآیند را نیز بدون تمیز کردن آزمایش کرده‌ایم.

۴٫۱٫ انتخاب ملک

مرحله اولیه انتخاب ویژگی های ابرداده برای پردازش است.

ما تصمیم گرفته‌ایم روی ویژگی‌هایی تمرکز کنیم که به‌عنوان عنوان و چکیده عمل می‌کنند، زیرا آنها عناصر اصلی ابرداده هستند که با متن آزاد در رکوردهای ابرداده پر شده‌اند. استفاده از عناصر کلیدواژه، اگرچه به مفاهیم اشاره دارد، اما جایگزین مناسبی نیست زیرا فقط شامل یک یا دو کلمه است که نمایش TF-IDF یا تعبیه کلمه به مفاهیم کلی اشاره دارد و احتمالاً خوشه‌های بزرگ و ناهمگن ایجاد می‌کند (ممکن است وجود داشته باشد). هزاران مجموعه داده به عنوان “پوشش زمین” طبقه بندی شوند). با توجه به طرحواره ابرداده، ویژگی عنوان دارای نام متمایز منبع است و ممکن است خلاصه‌ای حداقلی از محتویات آن را بیان کند، در حالی که ویژگی انتزاعی محتویات منبع را با جزئیات بیشتری توصیف می‌کند. به طور کلی، اطلاعات بیشتری برای یک تکنیک خوشه بندی در دسترس است، بهتر می تواند شباهت منابع را شناسایی کند. با این حال، ما خوشه‌بندی حداکثر شباهت را نمی‌خواهیم، زیرا می‌خواهیم از خوشه‌بندی بر اساس مکان، مقیاس یا سایر جنبه‌هایی که در سوابق فراداده که موضوع نیستند، توضیح داده شده اجتناب کنیم. در این زمینه، افزودن محتوای متنی بیشتر ممکن است منجر به تجمیع‌های نادرست شود (یعنی خوشه‌هایی از داده‌ها در مورد یک مکان اما موضوع متفاوت). برای ارزیابی تأثیر بالقوه این امکان، ما سه سناریو را ارزیابی کرده‌ایم: استفاده از ویژگی عنوان به عنوان ورودی خوشه‌بندی، استفاده از تنها ویژگی انتزاعی به عنوان ورودی، و استفاده از هر دو ویژگی به عنوان ورودی. افزودن محتوای متنی بیشتر ممکن است منجر به تجمیع‌های نادرست شود (به عنوان مثال، خوشه‌هایی از داده‌ها در مورد یک مکان اما موضوع متفاوت). برای ارزیابی تأثیر بالقوه این امکان، ما سه سناریو را ارزیابی کرده‌ایم: استفاده از ویژگی عنوان به عنوان ورودی خوشه‌بندی، استفاده از تنها ویژگی انتزاعی به عنوان ورودی، و استفاده از هر دو ویژگی به عنوان ورودی. افزودن محتوای متنی بیشتر ممکن است منجر به تجمیع‌های نادرست شود (به عنوان مثال، خوشه‌هایی از داده‌ها در مورد یک مکان اما موضوع متفاوت). برای ارزیابی تأثیر بالقوه این امکان، ما سه سناریو را ارزیابی کرده‌ایم: استفاده از ویژگی عنوان به عنوان ورودی خوشه‌بندی، استفاده از تنها ویژگی انتزاعی به عنوان ورودی، و استفاده از هر دو ویژگی به عنوان ورودی.

۴٫۲٫ تمیز کردن

متن انتخاب شده به کلمات (توکن) تبدیل می شود و نشانه هایی که ممکن است بر نتایج خوشه بندی تأثیر منفی بگذارند حذف می شوند. برای این کار، ما مجموعه ای از فرآیندهای عادی سازی و تمیز کردن اولیه را از ادبیات برای افزایش یکنواختی توکن ها ارزیابی کرده ایم [ ۵۵ ]. به طور خاص، ما تمام ترکیب‌های ممکن از فرآیندهای تمیز کردن زیر را آزمایش کرده‌ایم: تبدیل به حروف کوچک، حذف کلمات توقف، حذف نام مکان‌ها، حذف متن درون پرانتز، و کاهش فرم‌های کلمه به ریشه. حذف کلمات توقف و نام مکان به لطف استفاده از فهرست کلمات انجام می شود. عبارات منظم برای حذف متن درون پرانتز استفاده می شود. در نهایت، ما از الگوریتم گلوله برفی برای پایه گذاری استفاده می کنیم [ ۵۶ ].

۴٫۳٫ نمایش ویژگی

مرحله بعدی توکن های پاک شده رکورد ابرداده را به ویژگی هایی تبدیل می کند که ورودی الگوریتم های خوشه بندی خواهند بود. به عنوان نمایش ویژگی، جاسازی های کلمه، جاسازی جملات و نمایش ماتریس کلاسیک TF-IDF را به عنوان خط پایه مقایسه کرده ایم.

نمایش ویژگی TF-IDF یک ماتریس سند-ترم است که در آن هر موقعیت است $(d, t)$ حاوی بسامد یک عبارت t در رکورد d است که در فراوانی سند معکوس عبارت t در مجموعه D ضرب می شود . از انواع مختلف TF-IDF، ما از شکل نشان داده شده در معادله ( ۱ ) استفاده می کنیم. ارتباط یک اصطلاح موجود در یک سند را اندازه گیری می کند. عبارت فرکانس تعداد دفعات این عبارت در سند را در نظر می گیرد و فراوانی سند معکوس نشان می دهد که این عبارت در مجموعه چقدر نادر و آموزنده است تا ارزش TF-IDF اصطلاحات رایج را کاهش دهد. فراوانی عبارت t در یک رکورد ابرداده d تعداد دفعات آن عبارت است $t f_{t, d}$ تقسیم بر تعداد کل عبارات در رکورد ابرداده ( $s i z e (d)$ ). فراوانی ترم معکوس یک عبارت t در مجموعه، لگاریتم تعداد رکوردهای فراداده در مجموعه ( N ) تقسیم بر تعداد رکوردهای فراداده حاوی t در مجموعه است. $d f_{t}$ ).

t f . من d f تی ، د = تی f تی ، د s i z e ( د ) * l o g ن د f تی

(۱)

تعبیه‌های کلمه، کلمات را به‌عنوان یک مدل فضای برداری چندبعدی نشان می‌دهند، به گونه‌ای که کلمات مشابه/مرتبط معنایی به عنوان نقاط نزدیک در آن فضا نشان داده می‌شوند. بسته به معماری شبکه عصبی استفاده شده و داده های آموزشی، پیاده سازی های متعددی از جاسازی کلمه وجود دارد. ما نمی‌توانیم مستقیماً از این جاسازی‌های کلمه استفاده کنیم، زیرا باید شباهت جملات کامل را با هم مقایسه کنیم تا مشخص کنیم آیا آنها در مورد یک موضوع هستند یا خیر. بنابراین، ما آنها را از طریق خلاصه کردن به یک نمایش جمله تبدیل می کنیم. برای این تبدیل، ما استفاده از میانگین وزنی جاسازی کلمه و میانگین وزنی جاسازی کلمه را در هر جمله مقایسه کرده ایم همانطور که در Arora و همکاران نشان داده شده است. [ ۲۹]. معنی جاسازی کلمه از میانگین جاسازی های مختلف هر سند به عنوان نمایش سند استفاده می کند. میانگین وزنی جاسازی‌های کلمه از TF-IDF برای تنظیم وزن هر جاسازی استفاده می‌کند. نمایش جمله یک رکورد ابرداده ( d ) با استفاده از یک کلمه جاسازی شده ( $\vec{s e} (d)$ ( $\vec{w e} (t_{i})$ ) تقسیم بر تعداد عبارت های مختلف در رکورد ابرداده ( $s i z e (d i s t i n c t (t_{i} \in d))$ ) (به معادله ( ۲ ) مراجعه کنید). هدف نمایش جمله میانگین وزنی ( $\vec{s w e} (d)$ ) برای اصلاح اختلاف فراوانی کلمات در مجموعه است، بنابراین عبارات رایج در میانگین وزن کمتری نسبت به موارد غیر معمول دارند. مانند معادله قبلی محاسبه می‌شود، اما با ضرب نمایش جاسازی‌های کلمه هر عبارت مختلف در رکوردهای فراداده توسط TF-IDF چنین عبارتی در مجموعه (به معادله ( ۳ ) مراجعه کنید) محاسبه می‌شود. ما همچنین جاسازی‌های جملات خالص را به عنوان نمایش ویژگی آزمایش کرده‌ایم. این سیستم ها به طور مستقیم جملات را به عنوان یک مدل فضای برداری چند بعدی نشان می دهند و از نیاز به خلاصه کردن اجتناب می کنند.

s e \to (د) = \sum د من s t i n c t ( تی من \in د ) w e \to ( تی من ) s i z e ( د من s t i n c t ( تی من \in د ) )

(۲)

s w e \to (د) = \sum د من s t i n c t ( تی من \in د ) ( w e \to ( تی من ) * t f . من d f تی من ، د ) s i z e ( د من s t i n c t ( تی من \in د ) )

(۳)

به طور خاص، ما جاسازی‌های زیر را که با مجموعه‌های متنی اسپانیایی (زبان داده‌های آزمایش ما) ایجاد شده‌اند، آزمایش کرده‌ایم. به عنوان جاسازی کلمه، ما از Word2Vec [ ۵۷ ]، GLoVe [ ۲۴ ]، FastText [ ۲۵ ] تولید شده با مجموعه متن پیشنهادی توسط Cardellino [ ۵۷ ] و تعبیه‌های چند زبانه ELMo [ ۵۸ ] استفاده کرده‌ایم. به عنوان جاسازی جملات، از جمله BERT [ ۳۱ ] و Universal Sentence Encoder [ ۳۳ ] استفاده کرده ایم.

۴٫۴٫ خوشه بندی

با توجه به ماهیت فدرال کاتالوگ های جغرافیایی، آنها شامل داده هایی از دولت ها و سازمان های ملی تا محلی هستند. دولت ها و سازمان های سطح بالا مجموعه داده هایی را منتشر می کنند که مناطق وسیعی را تحت صلاحیت خود پوشش می دهد. اینها، به نوبه خود، اغلب به واحدهای کوچکتر تقسیم می شوند که همچنین داده های مربوط به مناطق تحت صلاحیت خود را منتشر می کنند. در بسیاری از موارد، اما نه همیشه، مجموعه داده‌های واحدهای کوچک‌تر را می‌توان برای تشکیل مجموعه داده‌های شبه مکانی جمع کرد. یعنی می توان آنها را به صورت خوشه ای دسته بندی کرد. برای مثال، می‌توان با جمع‌آوری آدرس‌های منتشر شده توسط دولت‌های محلی، برای یک هدف خاص، یک روزنامه آدرس به صورت دستی ایجاد کرد. این مورد در مورد مجموعه داده های سطح بالایی نیست، زیرا آنها مجموعه های کامل هستند. یعنی خوشه های تک عنصری هستند. مثلا،

این ویژگی برای بسیاری از الگوریتم‌های کلاسیک خوشه‌بندی مشکل است، زیرا آنها معمولاً قادر به شناسایی خوشه‌های تک عنصری نیستند. ما K-means [ ۵۹ ]، DBSCAN [ ۶۰ ]، OPTICS [ ۶۱ ] را مقایسه کردیم.] و خوشه بندی تجمعی. K-means، DBSCAN و OPTICS برخی از پرمصرف‌ترین تکنیک‌های خوشه‌بندی در ادبیات هستند، اما در خوشه‌های تک عنصری دارای اشکالاتی هستند. K-means خوشه های یک عنصری را تولید می کند، اما نیاز به انتخاب تعداد مورد نظر از خوشه ها به صورت دستی دارد و یافتن آن در هر مجموعه نیاز به آزمایش زیادی دارد. DBSCAN بسته به پیکربندی می‌تواند آنها را تولید کند، اما تنظیم پارامترهای بیش از حد آنها دشوار است. OPTICS کاملاً پایدار است، اما قادر به تولید خوشه های تک عنصری نیست. عناصر جدا شده را به خوشه های دیگر اختصاص می دهد یا آنها را به عنوان داده های جعلی علامت گذاری می کند. در نهایت، ما یک فرآیند خوشه‌بندی تجمعی را آزمایش کرده‌ایم که مستقیماً امکان تولید خوشه‌های تک عنصری را فراهم می‌کند. این فرآیند ساده‌سازی یک الگوریتم خوشه‌بندی تجمعی است [ ۶۲] که ساختن درخت خوشه را متوقف می کند زمانی که شباهت بین تمام عناصر خوشه های مختلف کمتر از یک آستانه معین باشد. شباهت بین دو رکورد فراداده را با استفاده از فاصله کسینوس محاسبه می‌کند و جفتی را با بیشترین مقدار شباهت، یعنی حاصل ضرب نقطه‌ای بین نمایش‌های برداری رکوردهای فراداده تقسیم بر حاصلضرب هنجارهای آنها، جمع‌آوری می‌کند. این فرآیند تا زمانی تکرار می شود که بیشترین شباهت یافت شده کمتر از مقدار انتخاب شده باشد.

در این الگوریتم‌های خوشه‌بندی، فراپارامترهای مربوط به حداقل اندازه خوشه به حداقل ممکن برای تسهیل شناسایی رکوردهای فراداده بدون هیچ رابطه یا خوشه‌های کوچک انتخاب شده‌اند. مقادیر پارامترهای باقیمانده از طریق یک جاروی ارزش انجام شده با داده های آزمایش به دست آمده است. فاصله بین نمونه‌ها در DBSCAN روی ۱٫۰۵ برای فاصله اقلیدسی و ۰٫۰۹ برای فاصله کسینوس تنظیم شده است زیرا مقادیر دیگر تعداد خوشه‌های ناهمگن یا تقسیم خوشه‌های یکنواخت را افزایش می‌دهند. به طور مشابه، در راه حل تجمعی، مقدار شباهت انتخاب شده برای تشخیص اینکه آیا دو منبع در یک خوشه هستند، ۰٫۹۸ تنظیم شده است. مقادیر بزرگتر تعداد زیادی مجموعه یکنواخت را تقسیم کردند و مقادیر پایین تر، مقادیر ناهمگن اضافی ایجاد کردند.

۴٫۵٫ اعتبارسنجی نتایج

ما نتایج هر رویکرد را با توجه به طبقه‌بندی دستی داده‌های آزمایشی که توسط هیئتی متشکل از ۵ متخصص در زیرساخت‌های داده‌های مکانی انجام شده است، مقایسه کرده‌ایم. معیارهای کیفیت نتیجه مورد استفاده، امتیاز V-Measure [ ۶۳ ] و Adjusted-Mutual-Information (AMI) [ ۶۴ ] است.]. V-Measure میانگین هارمونیک بین همگنی و کامل بودن خوشه ها را محاسبه می کند. یک خوشه اگر فقط شامل اعضای یک کلاس باشد همگن است و اگر همه اعضای کلاس در خوشه باشند کامل است. پارتیشن‌های دقیق هم همگن و هم کامل هستند و دارای امتیاز ۱ هستند. با توجه به AMI، وابستگی متقابل بین دو مجموعه از خوشه‌ها را با توجه به اطلاعاتی که آنها به اشتراک می‌گذارند کمیت می‌کند. یعنی اندازه گیری می کند که چگونه یکی از مجموعه های خوشه اجازه می دهد از دیگری مطلع شویم. اطلاعات متقابل بین دو پارتیشن به عنوان مجموع احتمالاتی که هر منبع مجموعه برای تعلق داشتن به هر جفت خوشه دارد در لگاریتم نسبت مشاهده شده/انتظار شده تعلق به خوشه ها محاسبه می شود. سپس این متریک به گونه ای تنظیم می شود که مقادیری بین ۱ برای شباهت کامل و ۰ برای عدم تشابه کامل بگیرد. در هر دو مورد، ما معیارهای مقایسه خوشه‌های تولید شده در هر آزمایش را با توجه به خوشه‌های ایجاد شده در طبقه‌بندی دستی محاسبه می‌کنیم.

۵٫ توضیحات مجموعه داده

زیرساخت ملی داده های مکانی اسپانیا (IDEE) نهاد رسمی است که همکاری زیرساخت های داده های مکانی را که توسط ادارات دولتی در سطح ملی، منطقه ای و محلی راه اندازی شده است، هماهنگ می کند. در سال ۲۰۲۱، همکاری دولت‌های ۱۹ منطقه خودمختار، ۱۴ آژانس ملی و ۳۹ شورای شهر ( https://www.idee.es/resources/documentos/Responsables_nodos_IDE.pdf ، دسترسی به ۲۶ نوامبر ۲۰۲۱) را ادغام می‌کند. از طریق ژئوپورتال IDEE (نامی که به پورتال این نوع زیرساخت داده شده است)، دسترسی به هزاران منبع (مجموعه داده و خدمات) در مورد هزاران موضوع با پوششی که از کل کشور تا یک شهرداری را شامل می شود، امکان پذیر است.

ما این مجموعه را انتخاب کرده‌ایم زیرا حاوی مجموعه کاملی از منابع جغرافیایی منتشر شده در اسپانیا است. به طور خاص، این مجموعه از طریق یک فرآیند برداشت انجام شده است که محتویات کاتالوگ های در حال اجرا در طرح های مختلف SDI را که متعلق به دفاتر دولتی ملی یا دولت های منطقه ای است، بازیابی می کند.

ما ۴۸۲۴ رکورد فراداده را دانلود کردیم که این منابع را توصیف می‌کردند، اما همه آنها برای تجزیه و تحلیل در این مقاله مناسب نبودند. برای مقایسه بین فرآیندهای توصیف شده قبلی، ما زیر مجموعه ای از ۶۳۰ رکورد ابرداده را انتخاب کرده ایم که مجموعه داده ها را در این زیرساخت توصیف می کند. این رکوردها مطابق با استاندارد فراداده جغرافیایی ISO 19115 [ ۲]، حاوی اطلاعات متنی توصیفی در مورد طیف وسیعی از موضوعات مانند کاداستر، محیط زیست و زیرساخت ها است. آن‌ها به این دلیل انتخاب شده‌اند که همه آنها به زبان اسپانیایی هستند (سوابق دیگر زیادی وجود دارد که از زبان‌های رسمی اسپانیایی مختلف استفاده می‌کنند)، و هیچ یک از آنها به عنوان بخشی از یک سریال صریح برچسب‌گذاری نشده است. در این زیرمجموعه، بسیاری از منابع حوزه های کوچکی را در مورد مضامین معادل پوشش می دهند، اما از آنجایی که توسط ارائه دهندگان مختلف ایجاد شده اند، هیچ رابطه صریحی در ابرداده خود ندارند. به این معنی که شامل مجموعه‌های منابع زیادی است که می‌توانند به‌عنوان مجموعه داده‌های شبه فضایی سازماندهی شوند، که آن را برای مقایسه الگوریتم‌هایی که سعی در شناسایی چنین سری‌هایی دارند بسیار مناسب می‌سازد. علاوه بر این، اندازه مجموعه به تجزیه و تحلیل دستی آن اجازه می دهد تا یک خط پایه برای مقایسه نتایج ارائه دهد.

جدول ۲ برخی از ویژگی های مربوط به عنوان و ویژگی های انتزاعی ۶۳۰ رکورد ابرداده مورد استفاده در آزمایش ها را نشان می دهد. میانگین کلمات در هر فیلد و انحراف معیار نشان می دهد که بیشتر مقادیر متن تحلیل شده کوتاه هستند. اگرچه طولانی ترین چکیده شامل ۷۱۲ کلمه است، اکثریت آنها کمتر از ۲۵۰ کلمه و یک مجموعه مرتبط کمتر از ۱۰ کلمه دارند.

شکل ۴ نمونه ای از یک رکورد ابرداده اصلی در قالب XML و ترجمه شده به انگلیسی را نشان می دهد. همانطور که نشان داده شده است، معمولاً چنین توصیفاتی حاوی اطلاعات موضوعی در مورد ماهیت یا هدف داده ها همراه با عوامل دیگر مانند فرمت ها، مراجع مکانی و سایر مشخصات فنی داده ها است. بسیاری از عباراتی که اغلب در این توصیفات استفاده می‌شوند، رایج هستند، اما هیچ ارتباطی با انباشت موضوعی مورد نظر ندارند، بنابراین می‌توانند باعث ایجاد خوشه‌بندی‌های نامطلوب شوند.

عملکرد هر آزمایش با توجه به طبقه‌بندی دستی انجام شده توسط هیئتی از کارشناسان که ۸۰ سری مجموعه داده‌های شبه مکانی را شناسایی کرده‌اند، ارزیابی شده است. بزرگترین خوشه دستی شامل ۱۱۹ عنصر است و ۱۱۱ رکورد ابرداده بدون رابطه وجود دارد. این طبقه بندی در یک فرآیند دو مرحله ای انجام شد. ابتدا ابرداده منابع به صورت دستی بررسی و بر اساس شباهت در توضیحات آنها گروه بندی شد (محتوای آنها معادل است). سپس، داده‌های مربوط به هر خوشه شناسایی شده برای تعیین نحوه توزیع مکانی منابع موجود به تصویر کشیده شده است. تصمیم گیری در مورد صحت مجموعه های شناسایی شده با اجماع هیئت کارشناسی صورت گرفته است. ما شناسایی کرده ایم که موضوعات اصلی منابع مربوط به حفاظت از طبیعت است (پوشش گیاهی، فرسایش خاک، سیل، آب و هوا)، فعالیت های کشاورزی (زراعت، گاو، جنگلداری، هیدروگرافی، سدها، آبیاری)، صنعت (توزیع، آلودگی) و سازمان سیاسی (تقسیمات اداری، کاربری های اراضی). برخی از خوشه‌های شناسایی‌شده مجموعه‌ای از تصاویر هواشناسی از ماهواره LINDE هستند که شهرداری‌های مختلف اسپانیا را پوشش می‌دهند، مجموعه‌ای از فشارها که ورود زباله‌های دریایی را در هر مرزبندی مختلف دریای اسپانیا ایجاد می‌کند، یا خوشه‌ای با مناطق خطر سیل در رودخانه‌ها و سواحل

۶٫ نتایج تجربی

این بخش نتایج تکنیک های مختلف خوشه بندی را با هم مقایسه می کند. به دلیل تعداد آزمایش‌ها، ما پیکربندی‌های فرآیند را با بهترین عملکرد برای هر الگوریتم نمایش ویژگی و خوشه‌بندی مختلف و فهرستی از ده بهترین آنها نشان می‌دهیم. علاوه بر این، از آنجایی که یکی از اهداف ما این بود که تشخیص دهیم آیا یک راه حل کلی بدون پاک کردن داده ها قابل اجرا است یا خیر، ما همچنین بهترین نتایج چنین تنظیماتی را نشان می دهیم.

جدول ۳پیکربندی های آزمایش استفاده شده و مخفف های نشان داده شده در جداول نتیجه را برای نشان دادن یک پیکربندی خاص خلاصه می کند. در مجموع، ۵۷۶۰ پیکربندی فرآیند آزمایش شده است. آنها همه ترکیبات ممکن از عناصر زیر هستند: “منبع داده” مورد استفاده در آزمایش ها عنوان، چکیده یا عنوان و چکیده با هم بوده است. فرآیندهای “تمیز کردن” مورد استفاده عبارتند از: حذف متن درون پرانتز (PT)، تبدیل تمام مقادیر متن به حروف کوچک (CS)، حذف کلمات توقف (SW)، حذف مکان‌ها (P) و اعمال ریشه (ST) . این پنج فرآیند تمیز کردن ۳۲ ترکیب مختلف تمیز کردن را ایجاد می کنند. به‌عنوان «مدل ویژگی»، از موارد زیر استفاده کرده‌ایم: Word2Vec، GloVe، و ELMo جاسازی‌شده کلمه با استفاده از میانگین (M) و میانگین وزنی (WM) و TF-IDF، جمله BERT، و رمزگذار جملات جهانی که مستقیماً بازنمایی جملات را ارائه می دهد. در نهایت، الگوریتم‌های «خوشه‌بندی» عبارتند از: خوشه‌بندی DBSCAN و OPTICS که با فاصله کسینوس (Cos) و اقلیدسی (Eucl)، KMEANS و خوشه‌بندی تجمعی (AG) محاسبه شده‌اند. در مورد K-Means، تعداد خوشه هایی که باید ایجاد شوند به صورت دستی به تعداد مشخص شده در طبقه بندی دستی تنظیم شده است.

جدول ۴ بهترین پیکربندی را برای هر تکنیک نمایش ویژگی و خوشه بندی نشان می دهد. ستون ترتیب رتبه آزمایش را بر حسب نتیجه V-Measure نشان می دهد. نتایج دارای ترتیب تقریباً یکسانی با هر دو معیار و مقادیر شباهت بالا هستند. آنها نشان می‌دهند که امکان شناسایی خودکار مجموعه داده‌های شبه مکانی در داده‌های مجموعه با دقت بالا وجود دارد، اگرچه بسته به نمایش ویژگی و تکنیک خوشه‌بندی مورد استفاده، کیفیت نتایج متفاوت است.

در حالی که Word2Vec و GloVe با خوشه‌بندی تجمعی بهترین راه‌حل‌ها هستند، نمایش کلاسیک TF-IDF و راه‌حل‌های خوشه‌بندی مانند DBSCAN، OPTICS یا KMEANS در همه موارد بدتر عمل می‌کنند. تعجب آور نیست که نمایش جاسازی کلمه بهتر از TF-IDF کار می کند زیرا آنها بازنمایی های غنی تری هستند، اما توجه به این نکته مهم است که چگونه راه حل های جاسازی جملات خالص بدتر از خلاصه سازی کلمات جاسازی می شوند. ما فکر می کنیم که علت این امر تفاوت بین مجموعه های مورد استفاده برای آموزش تعبیه ها و اصطلاحات مورد استفاده در مجموعه آزمایشی است. از آنجایی که برخی از اصطلاحات مکانی تخصصی و فنی هستند، ممکن است در داده‌های آموزشی مدل‌های جاسازی جملات مورد استفاده در آزمایش ظاهر نشوند. نتایج خوشه‌بندی انباشته همان‌طور که انتظار می‌رفت بود، زیرا به صراحت طراحی شده بود تا مانند تکنیک‌های دیگر از وارد کردن عناصر منفرد در داخل یک خوشه جلوگیری کند. با این حال، زمان اجرا بسیار بزرگتر از تکنیک های دیگر است. با استفاده از پردازنده i5-4590، DBSCAN میانگین هزینه ۰٫۰۳ ثانیه، K-means 0.16 ثانیه، OPTICS 0.83 ثانیه و خوشه بندی تجمعی ۳۰٫۷۷ ثانیه داشت. خوشه‌بندی انباشته‌ای دارای هزینه‌ای سه مرتبه بزرگ‌تر از سریع‌ترین راه‌حل است، که با مجموعه‌های ابرداده بزرگ به یک مسئله مرتبط تبدیل می‌شود. و خوشه‌بندی تجمعی ۳۰٫۷۷ ثانیه. خوشه‌بندی انباشته‌ای دارای هزینه‌ای سه مرتبه بزرگ‌تر از سریع‌ترین راه‌حل است، که با مجموعه‌های ابرداده بزرگ به یک مسئله مرتبط تبدیل می‌شود. و خوشه‌بندی تجمعی ۳۰٫۷۷ ثانیه. خوشه‌بندی انباشته‌ای دارای هزینه‌ای سه مرتبه بزرگ‌تر از سریع‌ترین راه‌حل است، که با مجموعه‌های ابرداده بزرگ به یک مسئله مرتبط تبدیل می‌شود.

علاوه بر این، توجه به این نکته مهم است که در بیشتر موارد، استفاده از عناوین رکوردهای فراداده از نظر نتایج مرتبط نیست. محتوای آنها تمایل دارد تأثیر منفی بر نتایج داشته باشد. ما فکر می کنیم که این ناشی از اصطلاحات آنها است. حتی اگر توصیف‌ها بسیار متفاوت باشند، عناوین مشابه هستند و اصطلاحات مشابهی در بسیاری از منابع تکرار می‌شوند. این امر باعث ایجاد اعوجاج های کوچک در خوشه های تولید شده می شود که نتایج به دست آمده را بدتر می کند. در نهایت، مراحل پاکسازی نشان می‌دهد که کلمات توقف و نام مکان‌ها عناصری در ابرداده هستند که به‌طور بیشتر بر خوشه‌های تولید شده تأثیر می‌گذارند. این نیز طبیعی است زیرا آنها کلمات رایج در تمام رکوردهای فراداده هستند، بنابراین بر نوع تجمع ایجاد شده تأثیر می‌گذارند (به عنوان مثال، خوشه‌بندی بر اساس مکان به جای موضوع).

جدول ۵۱۰ بهترین پیکربندی را بدون تمیز کردن داده ها نشان می دهد. می توان مشاهده کرد که تمیز کردن نتایج را بهبود می بخشد، اما تفاوت کم است. هشت پیکربندی اول از یک نمایش جاسازی کلمه و یک خوشه‌بندی تجمعی استفاده می‌کنند. دو مورد آخر از DBSCAN با فاصله اقلیدسی استفاده می کنند. در این مورد، ELMO، FastText و Word2Vec نتایج مشابهی دارند که هر دو معیار تفاوت‌های کوچکی در ترتیب دارند. این واقعیت که دو نتیجه بهترین ELMO از تعبیه‌های میانگین (M) به جای میانگین وزنی (WM) استفاده می‌کنند، نشان می‌دهد که بافت کلمه در ELMO به تصحیح نمایش بیش از حد اصطلاحات رایج کمک می‌کند، که، در بقیه تکنیک‌ها، با استفاده از میانگین وزنی جاسازی ها تنظیم می شود. دو نتیجه آخر از نظر عملکرد کمی با بقیه فاصله دارند،

در نهایت، جدول ۶ ۱۰ پیکربندی فرآیند را با بالاترین امتیاز V-Measure در بین تمام آزمایش های انجام شده نشان می دهد. می توان مشاهده کرد که چگونه استفاده از Word2Vec از GloVe با خوشه بندی انباشته همیشه بهترین نتایج را مستقل از مراحل دیگر ایجاد می کند. اگرچه ترتیب امتیاز AMI کمی متفاوت است، تغییر در ترتیب حداقل است.

۷٫ بحث

ما راه‌حل‌های خوشه‌بندی چندگانه را روی یک مجموعه برچسب‌گذاری شده دستی آزمایش کرده‌ایم تا تعیین کنیم که آیا مجموعه داده‌های شبه فضایی مورد نظر می‌تواند به طور خودکار تولید شود یا خیر. نتایج چندین پیکربندی مناسب با عملکرد مشابه را نشان داده است.

می‌توانیم بیان کنیم که استفاده از نمایش جاسازی‌های کلمه، تولید مجموعه داده‌های شبه فضایی مورد نظر را با توجه به TF-IDF کلاسیک، حتی زمانی که هیچ پاک‌سازی داده‌ای انجام نمی‌شود، بهبود می‌بخشد. به طور مشابه، جاسازی‌های جملات می‌توانند برای نمایش ویژگی‌ها با کاهش اندک عملکرد استفاده شوند. نتایج به‌دست‌آمده با نمایش‌های جاسازی کلمه و جاسازی جملات همیشه بهتر از نمایش‌های TF-IDF معادل است. این نشان می دهد که آنها اطلاعات موجود در رکوردهای ابرداده را بهتر بیان می کنند. با این حال، همچنین باید مراقب این راه‌حل‌ها بود، زیرا ثابت شده است که جاسازی‌های جملات به داده‌های آموزشی وابسته هستند و تعیین نحوه رفتار آنها با مجموعه‌های دیگر با اصطلاحات متفاوت را دشوار می‌کند.

با توجه به خوشه‌بندی، حتی اگر خوشه‌بندی تجمعی از بقیه تکنیک‌های تحلیل‌شده بهتر عمل می‌کند و به خوبی با مشکل خوشه‌های تک عنصری برخورد می‌کند، زمان اجرای آن ممکن است استفاده از آن را برای مجموعه‌های بزرگ منصرف کند. در این موارد، DBSCAN سریعتر است و ثابت کرده است که عملکرد نزدیکی دارد.

تولید سری داده‌های شبه فضایی پیشنهادی محدودیت‌هایی را ارائه می‌کند که باید در نتایج به‌دست‌آمده در نظر گرفته شوند. اولاً، فرآیند کاملاً به کیفیت ابرداده بستگی دارد. این نیاز به شرح کامل منابع دارد، بنابراین شباهت در تعاریف قابل محاسبه است. این ممکن است بدیهی به نظر برسد، اما در حال حاضر مجموعه‌های ابرداده‌های مکانی زیادی با توضیحات کوتاه وجود دارد که فرآیند پیشنهادی را نمی‌توان اعمال کرد. ثانیاً به دلیل ماهیت الگوریتم‌ها، اگرچه کیفیت تجمیع‌های تولید شده خوب است، اما کامل نیست. بنابراین، نتایج باید توسط کاربران تفسیر شود تا مشخص شود که آیا آنها منطقی هستند یا خیر. در نهایت، پیشنهاد فعلی هیچ گونه ترتیب درون خوشه ای نتایج را ارائه نمی دهد. زیرا قادر به شناسایی ماهیت خوشه های شناسایی شده نیست. یک خوشه ممکن است حاوی منابعی باشد که در امتداد فضا توزیع شده و حاوی محتوای مشابه است، بر روی یک منطقه متمرکز اما با زمان های ایجاد متفاوت، یا هر دوی آنها به طور همزمان باشد. راه حلی برای این مشکل باید در کارهای آینده بررسی شود.

۸٫ نتیجه گیری

این مقاله نشان داده است که چگونه تکه تکه شدن فضایی در کاتالوگ‌های مکانی می‌تواند باعث ناکارآمدی در جستجوهای “مفهوم در مکان” شود. ما مشکلات IR موجود را خلاصه کرده و ناهماهنگی موجود بین ماهیت پیوسته اطلاعات مکانی و ساختار مبتنی بر کتابخانه دیجیتالی این فهرست‌های فراداده را شرح داده‌ایم. برای حل این مشکل، ما شناسایی خودکار مجموعه داده‌های شبه فضایی را پیشنهاد کرده‌ایم تا نتایج انباشته‌ای را ارائه کنیم که می‌تواند برای بهبود فهرست‌های نتایج پرس و جو استفاده شود.

ما نشان داده‌ایم که چگونه می‌توان از تکنیک‌های خوشه‌بندی فعلی برای تولید مجموعه داده‌های شبه مکانی با کیفیت خوب با استفاده از مجموعه ابرداده اسپانیایی که به صورت دستی برچسب‌گذاری شده است، استفاده کرد. نتایج به وضوح نشان می‌دهد که استفاده از جاسازی‌های کلمه با خوشه‌بندی تجمعی بهترین راه‌حل است، اما اگر زمان اجرا عامل مرتبط باشد، می‌توان آن را با DBSCAN جایگزین کرد.

به عنوان کار آینده، ما می خواهیم رویکرد پیشنهادی را در جهت ارائه راه حل لایه پیوسته گسترش دهیم. مجموعه داده‌های شبه مکانی شناسایی‌شده را می‌توان با استفاده از ابزار اتوماسیون ابرداده فضایی به سیستم IR کاتالوگ مربوطه اضافه کرد. به این ترتیب، آنها می توانند به عنوان نتایج پرس و جو ارائه شوند که یافتن داده هایی را برای کاربران آسان تر می کند که نیازهای آنها را برآورده می کند. برای این منظور، ما قصد داریم یک خط لوله غنی‌سازی ایجاد کنیم که امکان ادغام منابع ناهمگن مجموعه داده‌های شبه مکانی را در یک منبع واحد فراهم می‌کند. این نه تنها برای بهبود قابلیت های جستجوی کاتالوگ های مکانی، بلکه برای تجزیه و تحلیل داده ها نیز مفید خواهد بود. به عنوان مثال، این لایه‌های یکپارچه شناسایی مناطق بدون داده‌ای در مورد یک موضوع یا یافتن مناطقی با کیفیت داده بهتر یا بدتر را ممکن می‌سازد. مشکلی معادل تقسیم بندی فضایی، تکه تکه شدن زمانی داده ها است. با توجه به ارتباط بیشتر جنبه‌های فضایی، ما فقط بر تکه تکه شدن فضایی تمرکز کرده‌ایم، اما می‌خواهیم مشکل مدیریت زمانی را تجزیه و تحلیل کنیم تا مشخص کنیم که آیا همان راه‌حل‌های پیشنهادی برای جنبه‌های فضایی قابل اعمال است یا خیر. به عنوان بخشی از این فرآیند، تحلیل اینکه آیا می‌توان از عناصر فراداده اضافی استفاده کرد و نحوه برخورد با فهرست‌های چندزبانه، ضروری است. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. با توجه به ارتباط بیشتر جنبه‌های فضایی، ما فقط بر تکه تکه شدن فضایی تمرکز کرده‌ایم، اما می‌خواهیم مشکل مدیریت زمانی را تجزیه و تحلیل کنیم تا مشخص کنیم که آیا همان راه‌حل‌های پیشنهادی برای جنبه‌های فضایی قابل اعمال است یا خیر. به عنوان بخشی از این فرآیند، تحلیل اینکه آیا می‌توان از عناصر فراداده اضافی استفاده کرد و نحوه برخورد با فهرست‌های چندزبانه، ضروری است. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. با توجه به ارتباط بیشتر جنبه‌های فضایی، ما فقط بر تکه تکه شدن فضایی تمرکز کرده‌ایم، اما می‌خواهیم مشکل مدیریت زمانی را تجزیه و تحلیل کنیم تا مشخص کنیم که آیا همان راه‌حل‌های پیشنهادی برای جنبه‌های فضایی قابل اعمال است یا خیر. به عنوان بخشی از این فرآیند، تحلیل اینکه آیا می‌توان از عناصر فراداده اضافی استفاده کرد و نحوه برخورد با فهرست‌های چندزبانه، ضروری است. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. اما ما می خواهیم مشکل مدیریت زمانی را تجزیه و تحلیل کنیم تا مشخص کنیم که آیا همان راه حل های ارائه شده برای جنبه های مکانی را می توان اعمال کرد یا خیر. به عنوان بخشی از این فرآیند، تحلیل اینکه آیا می‌توان از عناصر فراداده اضافی استفاده کرد و نحوه برخورد با فهرست‌های چندزبانه، ضروری است. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. اما ما می خواهیم مشکل مدیریت زمانی را تجزیه و تحلیل کنیم تا مشخص کنیم که آیا همان راه حل های ارائه شده برای جنبه های مکانی را می توان اعمال کرد یا خیر. به عنوان بخشی از این فرآیند، تحلیل اینکه آیا می‌توان از عناصر فراداده اضافی استفاده کرد و نحوه برخورد با فهرست‌های چندزبانه، ضروری است. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند. یکی دیگر از زمینه های بهبود، شناسایی ماهیت خوشه ها و ارائه نتایج است. اگر بتوان رابطه مکانی یا زمانی موجود در هر خوشه را شناسایی کرد، محتوای هر خوشه را می توان به روشی منظم ارائه کرد که کار تجزیه و تحلیل محتوای نتایج را ساده می کند.

منابع

Nebert, D. (Ed.) توسعه زیرساخت های داده های مکانی: کتاب آشپزی SDI ; زیرساخت داده های مکانی جهانی (GSDI). ۲۰۰۴٫ در دسترس آنلاین: http://gsdiassociation.org/images/publications/cookbooks/SDI_Cookbook_GSDI_2004_ver2.pdf (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
ISO 19115-1:2014-اطلاعات جغرافیایی—فراداده—بخش ۱: مبانی. سازمان بین المللی استاندارد (ISO): ژنو، سوئیس، ۲۰۱۴٫ در دسترس آنلاین: https://iso.statuspage.io/#!iso:std:53798:en (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
داسیلوا سانتوس، LB; ویلکینسون، MD؛ کوزنیار، ع. کالیاپرومال، آر. تامپسون، ام. دومانتیه، ام. برگر، K. نقاط داده FAIR که از قابلیت همکاری داده های بزرگ پشتیبانی می کنند. در قابلیت همکاری سازمانی در کارخانه دیجیتالی و شبکه ای آینده ؛ ISTE: لندن، بریتانیا، ۲۰۱۶; صص ۲۷۰-۲۷۹٫ [ Google Scholar ]
هابنر، اس. اسپیتل، آر. ویسر، یو. جستجوی Vogele، TJ مبتنی بر هستی شناسی برای نقشه های دیجیتال تعاملی. IEEE Intell. سیستم ۲۰۰۴ ، ۱۹ ، ۸۰-۸۶٫ [ Google Scholar ] [ CrossRef ]
لارسون، جی. اولموس، MA; Pereira, M. آیا کاتالوگ های جغرافیایی به اهداف خود می رسند؟ در مجموعه مقالات نهمین کنفرانس AGILE در علم اطلاعات جغرافیایی: شکل دادن به آینده علم اطلاعات جغرافیایی در اروپا، ویسگراد، مجارستان، ۲۰-۲۲ آوریل ۲۰۰۶٫ صص ۱-۸٫ [ Google Scholar ]
فوگازا، سی. تاگلیولاتو، پ. فریجریو، ال. کارارا، ص. نرمال‌سازی ابرداده‌های مکانی در مقیاس وب بر اساس منابع داده‌ای آگاه از معنایی. ISPRS Int. J. Geo-Inf. ۲۰۱۷ ، ۶ ، ۳۵۴٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
درشیری، س. فرنقی، م. Sahelgozin, M. ژئوپورتال پیشنهادی برای کشف و توصیه منابع جغرافیایی. جی. اسپات. علمی ۲۰۱۹ ، ۶۴ ، ۴۹-۷۱٫ [ Google Scholar ] [ CrossRef ]
ایوانووا، آی. براون، ن. فریزر، آر. تنگکو، ن. روبینوف، ای. دسترسی عادلانه و استاندارد به داده های مکانی به عنوان ابزاری برای دستیابی به اهداف توسعه پایدار. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. Sci.-ISPRS Arch. ۲۰۱۹ ، ۴۲ ، ۳۳-۳۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
جولیانی، جی. کازو، اچ. بورگی، پی. پوسین، سی. ریچارد، جی پی. Chatenoux، B. SwissEnvEO: مخزن ملی داده های زیست محیطی عادلانه برای علوم باز رصد زمین. اطلاعات علمی J. ۲۰۲۱ , ۲۰ . [ Google Scholar ] [ CrossRef ]
ISO 19131:2007. اطلاعات جغرافیایی – مشخصات محصول داده. سازمان بین المللی استاندارد (ISO). در دسترس آنلاین: https://iso.statuspage.io/#iso:std:iso:19131:ed-1:en (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
لارسون، آر. Frontiera, P. رتبه بندی و نمایندگی برای بازیابی اطلاعات جغرافیایی. در مجموعه مقالات چکیده توسعه یافته در کارگاه SIGIR 2004 در مورد بازیابی اطلاعات جغرافیایی، شفیلد، انگلستان، ۲۹ ژوئیه ۲۰۰۴٫ صص ۱-۳٫ [ Google Scholar ]
ژان، Q. ژانگ، ایکس. لی، دی. مدل توصیف معنایی مبتنی بر هستی شناسی برای کشف و بازیابی اطلاعات مکانی. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. علمی ۲۰۰۸ ، ۳۲ ، ۱۴۱-۱۴۶٫ [ Google Scholar ]
ژانگ، ی. چیانگ، YY; Szekely، P. Knoblock، CA یک رویکرد معنایی برای بازیابی، پیوند، و یکپارچه سازی داده های جغرافیایی ناهمگن. در مجموعه مقالات کارگاه مشکلات و رویکردهای هوش مصنوعی برای محیط های هوشمند و کارگاه آموزشی شهرهای معنایی، پکن، چین، ۴ تا ۵ اوت ۲۰۱۳٫ صص ۳۱-۳۷٫ [ Google Scholar ]
De Andrade، FG; د سوزا باپتیستا، سی. دیویس، کالیفرنیا بهبود بازیابی اطلاعات جغرافیایی در زیرساخت های داده های مکانی. GeoInformatica ۲۰۱۴ ، ۱۸ ، ۷۹۳-۸۱۸٫ [ Google Scholar ] [ CrossRef ]
لی، دبلیو. Goodchild، MF; Raskin, R. Towards geospatial semantic search: بهره برداری از روابط معنایی پنهان در داده های جغرافیایی. بین المللی جی دیجیت. زمین ۲۰۱۴ ، ۷ ، ۱۷-۳۷٫ [ Google Scholar ] [ CrossRef ]
فوگازا، سی. پپه، م. اوجیونی، ا. تاگلیولاتو، پ. Carrara, P. افزایش آگاهی معنایی در مدیریت ابرداده های مکانی. ISPRS Int. J. Geo-Inf. ۲۰۱۸ ، ۷ ، ۳۷۰٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
فوگازا، سی. d’Aragona، PTA; اوجیونی، ا. Carrara, P. مدیریت فراداده های مکانی غیرمتمرکز. علوم زمین به اطلاع رساندن. ۲۰۲۱ ، ۱۴ ، ۱۵۷۹-۱۵۹۶٫ [ Google Scholar ] [ CrossRef ]
میائو، ال. لیو، سی. فن، ال. Kwan, MP یک مدل شباهت معنایی داده‌های جغرافیایی وب سرویس OGC برای بهبود کشف خدمات مکانی. Geosci را باز کنید. ۲۰۲۱ ، ۱۳ ، ۲۴۵-۲۶۱٫ [ Google Scholar ] [ CrossRef ]
لی، ی. جیانگ، ی. یانگ، سی. یو، م. کمال، ل. آرمسترانگ، ای. هوانگ، تی. مورونی، دی. McGibbney, L. بهبود رتبه بندی جستجوی داده های مکانی بر اساس یادگیری عمیق با استفاده از داده های رفتار کاربر. محاسبه کنید. Geosci. ۲۰۲۰ , ۱۴۲ , ۱۰۴۵۲۰٫ [ Google Scholar ] [ CrossRef ]
آگاروال، سی سی; ژای، سی. بررسی الگوریتم های خوشه بندی متن. در استخراج داده های متنی ; Springer: Boston, MA, USA, 2012; فصل الف: بررسی الگوریتم های خوشه بندی متن. صص ۷۷-۱۲۸٫ [ Google Scholar ]
ما، ال. Zhang, Y. استفاده از Word2Vec برای پردازش داده های متنی بزرگ. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در مورد داده های بزرگ، سانتا کلارا، کالیفرنیا، ایالات متحده، ۲۹ اکتبر تا ۱ نوامبر ۲۰۱۵؛ ص ۲۸۹۵-۲۸۹۷٫ [ Google Scholar ]
لی، سی. لو، ی. وو، جی. ژانگ، ی. شیا، ز. وانگ، تی. یو، دی. چن، ایکس. لیو، پی. Guo, J. LDA با Word2Vec: یک مدل جدید برای خوشه بندی انتزاعی آکادمیک ملاقات می کند. در مجموعه مجموعه مقالات کنفرانس وب ۲۰۱۸، لیون، فرانسه، ۲۳ تا ۲۷ آوریل ۲۰۱۸٫ صفحات ۱۶۹۹-۱۷۰۶٫ [ Google Scholar ]
میکولوف، تی. سوتسکور، آی. چن، ک. کورادو، جی اس. Dean, J. توزیع کلمات و عبارات و ترکیب آنها. Adv. عصبی Inf. روند. سیستم ۲۰۱۳ ، ۲ ، ۳۱۱۱-۳۱۱۹٫ [ Google Scholar ]
پنینگتون، جی. سوچر، آر. Manning، CD Glove: بردارهای جهانی برای نمایش کلمه. در مجموعه مقالات کنفرانس روشهای تجربی در پردازش زبان طبیعی ۲۰۱۴ ; انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، ۲۰۱۴; صفحات ۱۵۳۲-۱۵۴۳٫ در دسترس آنلاین: https://aclanthology.org/D14-1162/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
بویانوفسکی، پ. گریو، ای. جولین، ا. Mikolov, T. غنی سازی بردارهای کلمه با اطلاعات زیرکلمه. ترانس. دانشیار محاسبه کنید. زبانشناس. ۲۰۱۷ ، ۵ ، ۱۳۵-۱۴۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
پیترز، ام. نویمان، ام. اییر، م. گاردنر، ام. کلارک، سی. تره فرنگی.؛ Zettlemoyer، L. بازنمودهای متنی کلمه عمیق. در مجموعه مقالات کنفرانس ۲۰۱۸ بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی ؛ انجمن زبانشناسی محاسباتی: نیواورلئان، لس آنجلس، ایالات متحده آمریکا، ۲۰۱۸؛ جلد ۱، ص ۲۲۲۷–۲۲۳۷٫ در دسترس آنلاین: https://aclanthology.org/N18-1202/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
دولین، جی. چانگ، مگاوات؛ تره فرنگی.؛ Toutanova، K. BERT: پیش آموزش ترانسفورماتورهای عمیق دو جهته برای درک زبان. arXiv ۲۰۱۸ , arXiv:1810.04805. [ Google Scholar ]
فلوریدی، ال. چیریاتی، ام. GPT-3: ماهیت، دامنه، محدودیت‌ها و پیامدهای آن. ذهن ماخ. ۲۰۲۰ ، ۳۰ ، ۶۸۱-۶۹۴٫ [ Google Scholar ] [ CrossRef ]
آرورا، اس. لیانگ، ی. Ma, T. یک پایه ساده اما دشوار برای جاسازی جملات. در مجموعه مقالات کنفرانس بین المللی نمایش های آموزشی; در دسترس آنلاین: https://openreview.net/pdf?id=SyK00v5xx (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
لی، کیو. Mikolov, T. توزیع احکام و اسناد. arXiv ۲۰۱۴ ، arXiv:1405.4053. [ Google Scholar ]
ریمرز، ن. گوریویچ، I. جاسازی جملات با استفاده از شبکه های BERT سیامی. arXiv ۲۰۱۹ ، arXiv:1908.10084. [ Google Scholar ]
کونیو، ا. کیلا، دی. شونک، اچ. بارو، ال. Bordes، A. یادگیری نظارت شده بازنمودهای جملات جهانی از داده های استنتاج زبان طبیعی. arXiv ۲۰۱۷ , arXiv:1705.02364. [ Google Scholar ]
سر، دی. یانگ، ی. کنگ، اس. هوآ، ن. لیمتیاکو، ن. جان، آر. ثابت، ن. Guajardo-Cespedes، M. یوان، اس. Tar, C. Universal Sentence Encoder for English. در مجموعه مقالات کنفرانس ۲۰۱۸ روش های تجربی در پردازش زبان طبیعی: نمایش سیستم; صص ۱۶۹-۱۷۴٫ در دسترس آنلاین: https://aclanthology.org/D18-2029/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
کوسنر، ام. سان، ی. کلکین، ن. واینبرگر، ک. از جاسازی کلمه تا فاصله اسناد. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، ۶ تا ۱۱ ژوئیه ۲۰۱۵؛ ص ۹۵۷-۹۶۶٫ [ Google Scholar ]
ژانگ، سی. تائو، اف. چن، ایکس. شن، جی. جیانگ، م. سادلر، بی. Han, J. Taxogen: ساخت طبقه‌بندی موضوعی بدون نظارت با تعبیه و خوشه‌بندی اصطلاح تطبیقی. arXiv ۲۰۱۸ , arXiv:1812.09551. [ Google Scholar ]
هو، ک. لو، کیو. چی، ک. یانگ، اس. مائو، جی. فو، ایکس. ژنگ، جی. وو، اچ. گوا، ی. Zhu, Q. درک موضوع تکامل متون علمی مانند یک شهر در حال تحول: استفاده از مدل Google Word2Vec و تجزیه و تحلیل خودهمبستگی فضایی. Inf. روند. مدیریت ۲۰۱۹ ، ۵۶ ، ۱۱۸۵-۱۲۰۳٫ [ Google Scholar ] [ CrossRef ]
دیاز، جی. پوبلته، بی. براوو مارکز، اف. یک مدل یکپارچه برای داده های متنی رسانه های اجتماعی با ابعاد مکانی-زمانی. Inf. روند. مدیریت ۲۰۲۰ , ۵۷ , ۱۰۲۲۱۹٫ [ Google Scholar ] [ CrossRef ]
لی، ی. کای، جی. وانگ، جی. روش خوشه‌بندی اسناد متنی بر اساس مدل BERT وزنی. در مجموعه مقالات چهارمین کنفرانس فناوری اطلاعات، شبکه، کنترل الکترونیک و اتوماسیون IEEE 2020 (ITNEC)، چونگ کینگ، چین، ۱۲ تا ۱۴ ژوئن ۲۰۲۰؛ جلد ۱، ص ۱۴۲۶–۱۴۳۰٫ [ Google Scholar ]
آرناس-مارکز، اف جی; مارتینز-تورس، آر. Toral, S. رمزگذاری عصبی کانولوشن از بررسی های آنلاین برای شناسایی موضوعات نوع گروه های مسافرتی در TripAdvisor. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۶۴۵٫ [ Google Scholar ] [ CrossRef ]
زولا، پ. راگنو، سی. Cortez, P. رویکرد خوشه‌بندی فضایی Google Trends برای مکان‌یابی کاربر توییتر در سراسر جهان. Inf. روند. مدیریت ۲۰۲۰ , ۵۷ , ۱۰۲۳۱۲٫ [ Google Scholar ] [ CrossRef ]
نیومن، دی. هاگدورن، ک. کمودوگونتا، سی. اسمیت، پی. غنی‌سازی فراداده موضوعی با استفاده از مدل‌های موضوعی آماری. در مجموعه مقالات هفتمین کنفرانس مشترک ACM/IEEE-CS در کتابخانه های دیجیتال، ونکوور، BC، کانادا، ۱۸ تا ۲۳ ژوئن ۲۰۰۷٫ صص ۳۶۶-۳۷۵٫ [ Google Scholar ]
لاکاستا، جی. نوگراس-ایسو، جی. مورو مدرانو، روابط عمومی؛ Zarazaga-Soria، FJ خوشه بندی موضوعی مجموعه های ابرداده منابع جغرافیایی. در سمپوزیوم بین المللی وب و سیستم های اطلاعات جغرافیایی بی سیم ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۷; صص ۳۰-۴۳٫ [ Google Scholar ]
توماس، RE; Khan, SS تکنیک خوشه بندی را با استفاده از ابرداده برای متن کاوی بهبود بخشید. در مجموعه مقالات کنفرانس بین المللی ۲۰۱۶ در سیستم های ارتباطی و الکترونیکی (ICCES)، کویمباتور، هند، ۲۱ تا ۲۲ اکتبر ۲۰۱۶؛ صص ۱-۵٫ [ Google Scholar ]
راجان، ا. میتاس، ن. مهروترا، دی. خوشه بندی داده های ثبت اختراع با استفاده از رویکرد K-Means. در مهندسی نرم افزار. پیشرفت در سیستم های هوشمند و محاسبات . Hoda, M., Chauhan, N., Quadri, S., Srivastava, P., Eds. Springer: سنگاپور، ۲۰۱۹؛ جلد ۷۳۱، ص ۶۳۹–۶۴۵٫ [ Google Scholar ]
رکیب، MRH; زه، ن. یانکووسکا، م. Milios، E. تقویت خوشه بندی متن کوتاه با طبقه بندی تکراری. در کنفرانس بین المللی کاربردهای زبان طبیعی در سیستم های اطلاعاتی ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۲۰؛ صص ۱۰۵-۱۱۷٫ [ Google Scholar ]
کای، ز. وانگ، جی. او، K. خوشه بندی فضایی مبتنی بر چگالی تطبیقی برای تجزیه و تحلیل داده های عظیم. دسترسی IEEE ۲۰۲۰ ، ۸ ، ۲۳۳۴۶–۲۳۳۵۸٫ [ Google Scholar ] [ CrossRef ]
لو، دبلیو. سو، ز. او، جی. لی، ک. بررسی پویا زمانی استفاده از روش تحقیق در جامعه کتابداری و علم اطلاعات چین. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۶۸۶٫ [ Google Scholar ] [ CrossRef ]
Misztal-Radecka، J. ایندورخیا، ب. خوشه‌بندی سلسله مراتبی آگاه از تعصب برای تشخیص گروه‌های متمایز از کاربران در سیستم‌های توصیه. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۵۱۹٫ [ Google Scholar ] [ CrossRef ]
احمد، م. علی، ع. نقشه برداری ابتکارات زیرساخت داده های مکانی ملی. ۲۰۱۹٫ در دسترس آنلاین: https://www.google.com/maps/d/viewer?mid=1596RIb8g_n0LPyi55-N1E2PuDw4&ll=24.147211357953225%2C-86.749114528794 (نوامبر ۲۸۷۹۴).
کلانتری، م. سیاهرودین، س. رجبی فرد، ع. سوباگیو، اچ. Hubbard, H. Spatial Metadata Usability Evaluation. ISPRS Int. J. Geo-Inf. ۲۰۲۰ ، ۹ ، ۴۶۳٫ [ Google Scholar ] [ CrossRef ]
هنیگ، اس. Belgui, M. کاربر محور SDI: پرداختن به نیازهای کاربران در SDI نسل سوم. نمونه Nature-SDIplus. Geoforum Perspekt. ۲۰۱۱ ، ۱۰ ، ۳۰-۴۲٫ [ Google Scholar ]
ماسو، جی. پونز، ایکس. Zabala، A. تنظیم SDI نسل دوم: جنبه های نظری و موارد استفاده واقعی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۲ ، ۲۶ ، ۹۸۳-۱۰۱۴٫ [ Google Scholar ] [ CrossRef ]
لاکاستا، جی. لوپز-پلیسر، FJ; اسپژو-گارسیا، بی. نوگراس-ایسو، جی. Zarazaga-Soria، سیستم بازیابی اطلاعات مبتنی بر تجمع FJ برای کاتالوگ های داده های مکانی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۷ ، ۳۱ ، ۱۵۸۳-۱۶۰۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Latre، MA; لاکاستا، جی. موژیکا-آبرگو، ای. نوگراس-ایسو، جی. Zarazaga-Soria، FJ رویکردی برای تسهیل ادغام داده های هیدرولوژیکی با استفاده از هستی شناسی ها و اصطلاحنامه های چند زبانه. در پیشرفت در علم GIS. یادداشت های سخنرانی در اطلاعات جغرافیایی و نقشه برداری (LNG&C) . Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۹; صص ۱۵۵-۱۷۱٫ [ Google Scholar ]
Ingersoll، GS; مورتون، تی اس؛ Farris، AL Taming Text: نحوه یافتن، سازماندهی و دستکاری آن . Manning: Shelter Island، نیویورک، ایالات متحده آمریکا، ۲۰۱۲٫ [ Google Scholar ]
پورتر، MF Snowball: زبانی برای الگوریتم های بنیادی. ۲۰۰۱٫ در دسترس آنلاین: http://snowball.tartarus.org/texts/introduction.html (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
Cardellino، C. Spanish Billion Words Corpus and Embeddings. ۲۰۱۶٫ موجود به صورت آنلاین: https://crscardellino.ar/SBWCE/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
چه، دبلیو. لیو، ی. وانگ، ی. ژنگ، بی. لیو، تی. به سوی تجزیه UD بهتر: تعبیه‌های متنی عمیق کلمه، گروه، و الحاق بانک درخت. arXiv ۲۰۱۸ , arXiv:1807.03121. [ Google Scholar ]
هارتیگان، الگوریتم‌های خوشه‌بندی JA . جان ویلی و پسران: نیویورک، نیویورک، ایالات متحده آمریکا، ۱۹۷۵٫ [ Google Scholar ]
استر، ام. کریگل، اچ پی؛ ساندر، جی. Xu, X. یک الگوریتم مبتنی بر چگالی برای کشف خوشه ها در پایگاه داده های فضایی بزرگ با نویز. در مجموعه مقالات دومین کنفرانس بین المللی کشف دانش و داده کاوی، پورتلند، OR، ایالات متحده آمریکا، ۲ تا ۴ اوت ۱۹۹۶٫ Simoudis, E., Han, J., Fayyad, U., Eds.; انجمن برای پیشرفت هوش مصنوعی: پالو آلتو، کالیفرنیا، ایالات متحده آمریکا، ۱۹۹۶; ص ۲۲۶-۲۳۱٫ [ Google Scholar ]
ورما، م. سریواستاوا، م. چاک، ن. دیسوار، AK; گوپتا، ن. مطالعه مقایسه ای الگوریتم های مختلف خوشه بندی در داده کاوی. بین المللی J. Eng. Res. Appl. ۲۰۱۲ ، ۲ ، ۱۳۷۹–۱۳۸۴٫ [ Google Scholar ]
Voorhees، EM پیاده سازی الگوریتم های خوشه بندی سلسله مراتبی تجمعی برای استفاده در بازیابی اسناد. Inf. روند. مدیریت ۱۹۸۶ ، ۲۲ ، ۴۶۵-۴۷۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
روزنبرگ، ا. Hirschberg, J. V-measure: یک معیار ارزیابی خوشه خارجی مبتنی بر آنتروپی مشروط. در مجموعه مقالات کنفرانس مشترک ۲۰۰۷ در مورد روشهای تجربی در پردازش زبان طبیعی و یادگیری زبان طبیعی محاسباتی ; Eisner, J., Ed. انجمن زبانشناسی محاسباتی: پراگ، جمهوری چک، ۲۰۰۷; صص ۴۱۰-۴۲۰٫ در دسترس آنلاین: https://aclanthology.org/D07-1043/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
Vinh، NX; ایپس، جی. بیلی، جی. اقدامات نظری اطلاعات برای مقایسه خوشه‌بندی: انواع، ویژگی‌ها، عادی‌سازی و تصحیح برای شانس. جی. ماخ. فرا گرفتن. Res. ۲۰۱۰ ، ۱۱ ، ۲۸۳۷-۲۸۵۴٫ [ Google Scholar ]

شکل ۱٫ پوشش منابع با اطلاعات نقاط LIDAR در جنوب اسپانیا.

شکل ۲٫ فرآیند IR با استفاده از سری داده های شبه فضایی.

شکل ۳٫ خط لوله خوشه بندی.

شکل ۴٫ گزیده ای از رکورد فراداده ISO 19115 استخراج شده از فهرست جغرافیایی IDEE (به انگلیسی از اسپانیایی ترجمه شده است)

هوش مکانی اتیم تحقیقاتی ونوس نصیرفام