کلید واژه ها:
کاتالوگ های جغرافیایی ; فراداده ; بازیابی اطلاعات ؛ خوشه بندی ; جاسازی کلمات
۱٫ مقدمه
اهداف و مشارکت
- RQ1
-
چه چیزی باعث ناکارآمدی سیستمهای IR فهرست مکانی فعلی میشود و چگونه میتوان آنها را بهبود بخشید؟ برای پاسخ به این سوال، وضعیت فعلی فهرستهای مکانی را تحلیل میکنیم و مشکلات IR مربوط به ناهماهنگی بین ماهیت پیوسته اطلاعات مکانی و ساختار مبتنی بر کتابخانه دیجیتال این فهرستهای فراداده را توصیف میکنیم. بهعنوان راهحلی برای کاهش این مسائل IR، ما تولید مجموعههایی از منابع مرتبط را پیشنهاد میکنیم، که آنها را مجموعههای داده شبه فضایی مینامیم، که برای بهبود نمایش نتایج پرس و جو تعریف شدهاند.
- RQ2
-
آیا تکنیکهای خوشهبندی فعلی میتوانند مجموعه دادههای شبه فضایی با کیفیت خوبی تولید کنند؟ در اینجا، ما مجموعهای از رکوردهای فراداده را با مجموعه دادههای شبه مکانی برچسبگذاری شده دستی به عنوان خط پایه ایجاد کردهایم. سپس، آزمایشهایی را با پیکربندیهای فرآیند خوشهبندی چندگانه انجام دادهایم تا مشخص کنیم که آیا آنها میتوانند به طور خودکار مجموعهها را شناسایی کنند. ما انواع مختلفی از تمیز کردن داده های منبع را انجام می دهیم و نتایج را با استفاده از نمایش ویژگی کلاسیک TF-IDF با توجه به جاسازی های مدرن (Word2Vec، GloVe، FastText، ELMo، Sentence BERT و Universal Sentence Encoder) مقایسه می کنیم. به عنوان الگوریتم های خوشه بندی، ما K-Means، DBSCAN، OPTICS و خوشه بندی Agglomerative را مقایسه کرده ایم.
- RQ3
-
کدام فرآیندهای خوشه بندی برای این کار مناسب هستند؟ فرآیندهای مختلف انجام شده با توجه به مجموعههای برچسبگذاری شده دستی با استفاده از V-measure و Adjusted-Mutual-Information مقایسه میشوند. جدای از شناسایی بهترین پیکربندیها، ما همچنین به دنبال راهحلهای کلی هستیم (راهحلهایی که متن ورودی را به هیچ وجه از قبل پردازش نمیکنند) تا مشخص کنیم که آیا آنها به اندازه کافی خوب هستند که توسط یک کاتالوگ استفاده شوند یا خیر.
۲٫ کارهای مرتبط
۳٫ کاتالوگ های جغرافیایی و زنجیره داده های مکانی
۴٫ چارچوب ارزیابی
۴٫۱٫ انتخاب ملک
۴٫۲٫ تمیز کردن
۴٫۳٫ نمایش ویژگی
نمایش ویژگی TF-IDF یک ماتریس سند-ترم است که در آن هر موقعیت است ( د، تی )حاوی بسامد یک عبارت t در رکورد d است که در فراوانی سند معکوس عبارت t در مجموعه D ضرب می شود . از انواع مختلف TF-IDF، ما از شکل نشان داده شده در معادله ( ۱ ) استفاده می کنیم. ارتباط یک اصطلاح موجود در یک سند را اندازه گیری می کند. عبارت فرکانس تعداد دفعات این عبارت در سند را در نظر می گیرد و فراوانی سند معکوس نشان می دهد که این عبارت در مجموعه چقدر نادر و آموزنده است تا ارزش TF-IDF اصطلاحات رایج را کاهش دهد. فراوانی عبارت t در یک رکورد ابرداده d تعداد دفعات آن عبارت است تیfتی ، دتقسیم بر تعداد کل عبارات در رکورد ابرداده ( s i ze ( د)). فراوانی ترم معکوس یک عبارت t در مجموعه، لگاریتم تعداد رکوردهای فراداده در مجموعه ( N ) تقسیم بر تعداد رکوردهای فراداده حاوی t در مجموعه است. دfتی).
تعبیههای کلمه، کلمات را بهعنوان یک مدل فضای برداری چندبعدی نشان میدهند، به گونهای که کلمات مشابه/مرتبط معنایی به عنوان نقاط نزدیک در آن فضا نشان داده میشوند. بسته به معماری شبکه عصبی استفاده شده و داده های آموزشی، پیاده سازی های متعددی از جاسازی کلمه وجود دارد. ما نمیتوانیم مستقیماً از این جاسازیهای کلمه استفاده کنیم، زیرا باید شباهت جملات کامل را با هم مقایسه کنیم تا مشخص کنیم آیا آنها در مورد یک موضوع هستند یا خیر. بنابراین، ما آنها را از طریق خلاصه کردن به یک نمایش جمله تبدیل می کنیم. برای این تبدیل، ما استفاده از میانگین وزنی جاسازی کلمه و میانگین وزنی جاسازی کلمه را در هر جمله مقایسه کرده ایم همانطور که در Arora و همکاران نشان داده شده است. [ ۲۹]. معنی جاسازی کلمه از میانگین جاسازی های مختلف هر سند به عنوان نمایش سند استفاده می کند. میانگین وزنی جاسازیهای کلمه از TF-IDF برای تنظیم وزن هر جاسازی استفاده میکند. نمایش جمله یک رکورد ابرداده ( d ) با استفاده از یک کلمه جاسازی شده ( s e→( د)( w e→(تیمن)) تقسیم بر تعداد عبارت های مختلف در رکورد ابرداده ( s i ze ( دمن s t i n c t (تیمن∈ د) )) (به معادله ( ۲ ) مراجعه کنید). هدف نمایش جمله میانگین وزنی ( s w e→( د)) برای اصلاح اختلاف فراوانی کلمات در مجموعه است، بنابراین عبارات رایج در میانگین وزن کمتری نسبت به موارد غیر معمول دارند. مانند معادله قبلی محاسبه میشود، اما با ضرب نمایش جاسازیهای کلمه هر عبارت مختلف در رکوردهای فراداده توسط TF-IDF چنین عبارتی در مجموعه (به معادله ( ۳ ) مراجعه کنید) محاسبه میشود. ما همچنین جاسازیهای جملات خالص را به عنوان نمایش ویژگی آزمایش کردهایم. این سیستم ها به طور مستقیم جملات را به عنوان یک مدل فضای برداری چند بعدی نشان می دهند و از نیاز به خلاصه کردن اجتناب می کنند.
۴٫۴٫ خوشه بندی
۴٫۵٫ اعتبارسنجی نتایج
۵٫ توضیحات مجموعه داده
۶٫ نتایج تجربی
۷٫ بحث
۸٫ نتیجه گیری
منابع
- Nebert, D. (Ed.) توسعه زیرساخت های داده های مکانی: کتاب آشپزی SDI ; زیرساخت داده های مکانی جهانی (GSDI). ۲۰۰۴٫ در دسترس آنلاین: http://gsdiassociation.org/images/publications/cookbooks/SDI_Cookbook_GSDI_2004_ver2.pdf (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
- ISO 19115-1:2014-اطلاعات جغرافیایی—فراداده—بخش ۱: مبانی. سازمان بین المللی استاندارد (ISO): ژنو، سوئیس، ۲۰۱۴٫ در دسترس آنلاین: https://iso.statuspage.io/#!iso:std:53798:en (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
- داسیلوا سانتوس، LB; ویلکینسون، MD؛ کوزنیار، ع. کالیاپرومال، آر. تامپسون، ام. دومانتیه، ام. برگر، K. نقاط داده FAIR که از قابلیت همکاری داده های بزرگ پشتیبانی می کنند. در قابلیت همکاری سازمانی در کارخانه دیجیتالی و شبکه ای آینده ؛ ISTE: لندن، بریتانیا، ۲۰۱۶; صص ۲۷۰-۲۷۹٫ [ Google Scholar ]
- هابنر، اس. اسپیتل، آر. ویسر، یو. جستجوی Vogele، TJ مبتنی بر هستی شناسی برای نقشه های دیجیتال تعاملی. IEEE Intell. سیستم ۲۰۰۴ ، ۱۹ ، ۸۰-۸۶٫ [ Google Scholar ] [ CrossRef ]
- لارسون، جی. اولموس، MA; Pereira, M. آیا کاتالوگ های جغرافیایی به اهداف خود می رسند؟ در مجموعه مقالات نهمین کنفرانس AGILE در علم اطلاعات جغرافیایی: شکل دادن به آینده علم اطلاعات جغرافیایی در اروپا، ویسگراد، مجارستان، ۲۰-۲۲ آوریل ۲۰۰۶٫ صص ۱-۸٫ [ Google Scholar ]
- فوگازا، سی. تاگلیولاتو، پ. فریجریو، ال. کارارا، ص. نرمالسازی ابردادههای مکانی در مقیاس وب بر اساس منابع دادهای آگاه از معنایی. ISPRS Int. J. Geo-Inf. ۲۰۱۷ ، ۶ ، ۳۵۴٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- درشیری، س. فرنقی، م. Sahelgozin, M. ژئوپورتال پیشنهادی برای کشف و توصیه منابع جغرافیایی. جی. اسپات. علمی ۲۰۱۹ ، ۶۴ ، ۴۹-۷۱٫ [ Google Scholar ] [ CrossRef ]
- ایوانووا، آی. براون، ن. فریزر، آر. تنگکو، ن. روبینوف، ای. دسترسی عادلانه و استاندارد به داده های مکانی به عنوان ابزاری برای دستیابی به اهداف توسعه پایدار. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. Sci.-ISPRS Arch. ۲۰۱۹ ، ۴۲ ، ۳۳-۳۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- جولیانی، جی. کازو، اچ. بورگی، پی. پوسین، سی. ریچارد، جی پی. Chatenoux، B. SwissEnvEO: مخزن ملی داده های زیست محیطی عادلانه برای علوم باز رصد زمین. اطلاعات علمی J. ۲۰۲۱ , ۲۰ . [ Google Scholar ] [ CrossRef ]
- ISO 19131:2007. اطلاعات جغرافیایی – مشخصات محصول داده. سازمان بین المللی استاندارد (ISO). در دسترس آنلاین: https://iso.statuspage.io/#iso:std:iso:19131:ed-1:en (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
- لارسون، آر. Frontiera, P. رتبه بندی و نمایندگی برای بازیابی اطلاعات جغرافیایی. در مجموعه مقالات چکیده توسعه یافته در کارگاه SIGIR 2004 در مورد بازیابی اطلاعات جغرافیایی، شفیلد، انگلستان، ۲۹ ژوئیه ۲۰۰۴٫ صص ۱-۳٫ [ Google Scholar ]
- ژان، Q. ژانگ، ایکس. لی، دی. مدل توصیف معنایی مبتنی بر هستی شناسی برای کشف و بازیابی اطلاعات مکانی. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. علمی ۲۰۰۸ ، ۳۲ ، ۱۴۱-۱۴۶٫ [ Google Scholar ]
- ژانگ، ی. چیانگ، YY; Szekely، P. Knoblock، CA یک رویکرد معنایی برای بازیابی، پیوند، و یکپارچه سازی داده های جغرافیایی ناهمگن. در مجموعه مقالات کارگاه مشکلات و رویکردهای هوش مصنوعی برای محیط های هوشمند و کارگاه آموزشی شهرهای معنایی، پکن، چین، ۴ تا ۵ اوت ۲۰۱۳٫ صص ۳۱-۳۷٫ [ Google Scholar ]
- De Andrade، FG; د سوزا باپتیستا، سی. دیویس، کالیفرنیا بهبود بازیابی اطلاعات جغرافیایی در زیرساخت های داده های مکانی. GeoInformatica ۲۰۱۴ ، ۱۸ ، ۷۹۳-۸۱۸٫ [ Google Scholar ] [ CrossRef ]
- لی، دبلیو. Goodchild، MF; Raskin, R. Towards geospatial semantic search: بهره برداری از روابط معنایی پنهان در داده های جغرافیایی. بین المللی جی دیجیت. زمین ۲۰۱۴ ، ۷ ، ۱۷-۳۷٫ [ Google Scholar ] [ CrossRef ]
- فوگازا، سی. پپه، م. اوجیونی، ا. تاگلیولاتو، پ. Carrara, P. افزایش آگاهی معنایی در مدیریت ابرداده های مکانی. ISPRS Int. J. Geo-Inf. ۲۰۱۸ ، ۷ ، ۳۷۰٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- فوگازا، سی. d’Aragona، PTA; اوجیونی، ا. Carrara, P. مدیریت فراداده های مکانی غیرمتمرکز. علوم زمین به اطلاع رساندن. ۲۰۲۱ ، ۱۴ ، ۱۵۷۹-۱۵۹۶٫ [ Google Scholar ] [ CrossRef ]
- میائو، ال. لیو، سی. فن، ال. Kwan, MP یک مدل شباهت معنایی دادههای جغرافیایی وب سرویس OGC برای بهبود کشف خدمات مکانی. Geosci را باز کنید. ۲۰۲۱ ، ۱۳ ، ۲۴۵-۲۶۱٫ [ Google Scholar ] [ CrossRef ]
- لی، ی. جیانگ، ی. یانگ، سی. یو، م. کمال، ل. آرمسترانگ، ای. هوانگ، تی. مورونی، دی. McGibbney, L. بهبود رتبه بندی جستجوی داده های مکانی بر اساس یادگیری عمیق با استفاده از داده های رفتار کاربر. محاسبه کنید. Geosci. ۲۰۲۰ , ۱۴۲ , ۱۰۴۵۲۰٫ [ Google Scholar ] [ CrossRef ]
- آگاروال، سی سی; ژای، سی. بررسی الگوریتم های خوشه بندی متن. در استخراج داده های متنی ; Springer: Boston, MA, USA, 2012; فصل الف: بررسی الگوریتم های خوشه بندی متن. صص ۷۷-۱۲۸٫ [ Google Scholar ]
- ما، ال. Zhang, Y. استفاده از Word2Vec برای پردازش داده های متنی بزرگ. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در مورد داده های بزرگ، سانتا کلارا، کالیفرنیا، ایالات متحده، ۲۹ اکتبر تا ۱ نوامبر ۲۰۱۵؛ ص ۲۸۹۵-۲۸۹۷٫ [ Google Scholar ]
- لی، سی. لو، ی. وو، جی. ژانگ، ی. شیا، ز. وانگ، تی. یو، دی. چن، ایکس. لیو، پی. Guo, J. LDA با Word2Vec: یک مدل جدید برای خوشه بندی انتزاعی آکادمیک ملاقات می کند. در مجموعه مجموعه مقالات کنفرانس وب ۲۰۱۸، لیون، فرانسه، ۲۳ تا ۲۷ آوریل ۲۰۱۸٫ صفحات ۱۶۹۹-۱۷۰۶٫ [ Google Scholar ]
- میکولوف، تی. سوتسکور، آی. چن، ک. کورادو، جی اس. Dean, J. توزیع کلمات و عبارات و ترکیب آنها. Adv. عصبی Inf. روند. سیستم ۲۰۱۳ ، ۲ ، ۳۱۱۱-۳۱۱۹٫ [ Google Scholar ]
- پنینگتون، جی. سوچر، آر. Manning، CD Glove: بردارهای جهانی برای نمایش کلمه. در مجموعه مقالات کنفرانس روشهای تجربی در پردازش زبان طبیعی ۲۰۱۴ ; انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، ۲۰۱۴; صفحات ۱۵۳۲-۱۵۴۳٫ در دسترس آنلاین: https://aclanthology.org/D14-1162/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
- بویانوفسکی، پ. گریو، ای. جولین، ا. Mikolov, T. غنی سازی بردارهای کلمه با اطلاعات زیرکلمه. ترانس. دانشیار محاسبه کنید. زبانشناس. ۲۰۱۷ ، ۵ ، ۱۳۵-۱۴۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- پیترز، ام. نویمان، ام. اییر، م. گاردنر، ام. کلارک، سی. تره فرنگی.؛ Zettlemoyer، L. بازنمودهای متنی کلمه عمیق. در مجموعه مقالات کنفرانس ۲۰۱۸ بخش آمریکای شمالی انجمن زبانشناسی محاسباتی: فناوریهای زبان انسانی ؛ انجمن زبانشناسی محاسباتی: نیواورلئان، لس آنجلس، ایالات متحده آمریکا، ۲۰۱۸؛ جلد ۱، ص ۲۲۲۷–۲۲۳۷٫ در دسترس آنلاین: https://aclanthology.org/N18-1202/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
- دولین، جی. چانگ، مگاوات؛ تره فرنگی.؛ Toutanova، K. BERT: پیش آموزش ترانسفورماتورهای عمیق دو جهته برای درک زبان. arXiv ۲۰۱۸ , arXiv:1810.04805. [ Google Scholar ]
- فلوریدی، ال. چیریاتی، ام. GPT-3: ماهیت، دامنه، محدودیتها و پیامدهای آن. ذهن ماخ. ۲۰۲۰ ، ۳۰ ، ۶۸۱-۶۹۴٫ [ Google Scholar ] [ CrossRef ]
- آرورا، اس. لیانگ، ی. Ma, T. یک پایه ساده اما دشوار برای جاسازی جملات. در مجموعه مقالات کنفرانس بین المللی نمایش های آموزشی; در دسترس آنلاین: https://openreview.net/pdf?id=SyK00v5xx (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
- لی، کیو. Mikolov, T. توزیع احکام و اسناد. arXiv ۲۰۱۴ ، arXiv:1405.4053. [ Google Scholar ]
- ریمرز، ن. گوریویچ، I. جاسازی جملات با استفاده از شبکه های BERT سیامی. arXiv ۲۰۱۹ ، arXiv:1908.10084. [ Google Scholar ]
- کونیو، ا. کیلا، دی. شونک، اچ. بارو، ال. Bordes، A. یادگیری نظارت شده بازنمودهای جملات جهانی از داده های استنتاج زبان طبیعی. arXiv ۲۰۱۷ , arXiv:1705.02364. [ Google Scholar ]
- سر، دی. یانگ، ی. کنگ، اس. هوآ، ن. لیمتیاکو، ن. جان، آر. ثابت، ن. Guajardo-Cespedes، M. یوان، اس. Tar, C. Universal Sentence Encoder for English. در مجموعه مقالات کنفرانس ۲۰۱۸ روش های تجربی در پردازش زبان طبیعی: نمایش سیستم; صص ۱۶۹-۱۷۴٫ در دسترس آنلاین: https://aclanthology.org/D18-2029/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
- کوسنر، ام. سان، ی. کلکین، ن. واینبرگر، ک. از جاسازی کلمه تا فاصله اسناد. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، ۶ تا ۱۱ ژوئیه ۲۰۱۵؛ ص ۹۵۷-۹۶۶٫ [ Google Scholar ]
- ژانگ، سی. تائو، اف. چن، ایکس. شن، جی. جیانگ، م. سادلر، بی. Han, J. Taxogen: ساخت طبقهبندی موضوعی بدون نظارت با تعبیه و خوشهبندی اصطلاح تطبیقی. arXiv ۲۰۱۸ , arXiv:1812.09551. [ Google Scholar ]
- هو، ک. لو، کیو. چی، ک. یانگ، اس. مائو، جی. فو، ایکس. ژنگ، جی. وو، اچ. گوا، ی. Zhu, Q. درک موضوع تکامل متون علمی مانند یک شهر در حال تحول: استفاده از مدل Google Word2Vec و تجزیه و تحلیل خودهمبستگی فضایی. Inf. روند. مدیریت ۲۰۱۹ ، ۵۶ ، ۱۱۸۵-۱۲۰۳٫ [ Google Scholar ] [ CrossRef ]
- دیاز، جی. پوبلته، بی. براوو مارکز، اف. یک مدل یکپارچه برای داده های متنی رسانه های اجتماعی با ابعاد مکانی-زمانی. Inf. روند. مدیریت ۲۰۲۰ , ۵۷ , ۱۰۲۲۱۹٫ [ Google Scholar ] [ CrossRef ]
- لی، ی. کای، جی. وانگ، جی. روش خوشهبندی اسناد متنی بر اساس مدل BERT وزنی. در مجموعه مقالات چهارمین کنفرانس فناوری اطلاعات، شبکه، کنترل الکترونیک و اتوماسیون IEEE 2020 (ITNEC)، چونگ کینگ، چین، ۱۲ تا ۱۴ ژوئن ۲۰۲۰؛ جلد ۱، ص ۱۴۲۶–۱۴۳۰٫ [ Google Scholar ]
- آرناس-مارکز، اف جی; مارتینز-تورس، آر. Toral, S. رمزگذاری عصبی کانولوشن از بررسی های آنلاین برای شناسایی موضوعات نوع گروه های مسافرتی در TripAdvisor. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۶۴۵٫ [ Google Scholar ] [ CrossRef ]
- زولا، پ. راگنو، سی. Cortez, P. رویکرد خوشهبندی فضایی Google Trends برای مکانیابی کاربر توییتر در سراسر جهان. Inf. روند. مدیریت ۲۰۲۰ , ۵۷ , ۱۰۲۳۱۲٫ [ Google Scholar ] [ CrossRef ]
- نیومن، دی. هاگدورن، ک. کمودوگونتا، سی. اسمیت، پی. غنیسازی فراداده موضوعی با استفاده از مدلهای موضوعی آماری. در مجموعه مقالات هفتمین کنفرانس مشترک ACM/IEEE-CS در کتابخانه های دیجیتال، ونکوور، BC، کانادا، ۱۸ تا ۲۳ ژوئن ۲۰۰۷٫ صص ۳۶۶-۳۷۵٫ [ Google Scholar ]
- لاکاستا، جی. نوگراس-ایسو، جی. مورو مدرانو، روابط عمومی؛ Zarazaga-Soria، FJ خوشه بندی موضوعی مجموعه های ابرداده منابع جغرافیایی. در سمپوزیوم بین المللی وب و سیستم های اطلاعات جغرافیایی بی سیم ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۷; صص ۳۰-۴۳٫ [ Google Scholar ]
- توماس، RE; Khan, SS تکنیک خوشه بندی را با استفاده از ابرداده برای متن کاوی بهبود بخشید. در مجموعه مقالات کنفرانس بین المللی ۲۰۱۶ در سیستم های ارتباطی و الکترونیکی (ICCES)، کویمباتور، هند، ۲۱ تا ۲۲ اکتبر ۲۰۱۶؛ صص ۱-۵٫ [ Google Scholar ]
- راجان، ا. میتاس، ن. مهروترا، دی. خوشه بندی داده های ثبت اختراع با استفاده از رویکرد K-Means. در مهندسی نرم افزار. پیشرفت در سیستم های هوشمند و محاسبات . Hoda, M., Chauhan, N., Quadri, S., Srivastava, P., Eds. Springer: سنگاپور، ۲۰۱۹؛ جلد ۷۳۱، ص ۶۳۹–۶۴۵٫ [ Google Scholar ]
- رکیب، MRH; زه، ن. یانکووسکا، م. Milios، E. تقویت خوشه بندی متن کوتاه با طبقه بندی تکراری. در کنفرانس بین المللی کاربردهای زبان طبیعی در سیستم های اطلاعاتی ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۲۰؛ صص ۱۰۵-۱۱۷٫ [ Google Scholar ]
- کای، ز. وانگ، جی. او، K. خوشه بندی فضایی مبتنی بر چگالی تطبیقی برای تجزیه و تحلیل داده های عظیم. دسترسی IEEE ۲۰۲۰ ، ۸ ، ۲۳۳۴۶–۲۳۳۵۸٫ [ Google Scholar ] [ CrossRef ]
- لو، دبلیو. سو، ز. او، جی. لی، ک. بررسی پویا زمانی استفاده از روش تحقیق در جامعه کتابداری و علم اطلاعات چین. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۶۸۶٫ [ Google Scholar ] [ CrossRef ]
- Misztal-Radecka، J. ایندورخیا، ب. خوشهبندی سلسله مراتبی آگاه از تعصب برای تشخیص گروههای متمایز از کاربران در سیستمهای توصیه. Inf. روند. مدیریت ۲۰۲۱ ، ۵۸ ، ۱۰۲۵۱۹٫ [ Google Scholar ] [ CrossRef ]
- احمد، م. علی، ع. نقشه برداری ابتکارات زیرساخت داده های مکانی ملی. ۲۰۱۹٫ در دسترس آنلاین: https://www.google.com/maps/d/viewer?mid=1596RIb8g_n0LPyi55-N1E2PuDw4&ll=24.147211357953225%2C-86.749114528794 (نوامبر ۲۸۷۹۴).
- کلانتری، م. سیاهرودین، س. رجبی فرد، ع. سوباگیو، اچ. Hubbard, H. Spatial Metadata Usability Evaluation. ISPRS Int. J. Geo-Inf. ۲۰۲۰ ، ۹ ، ۴۶۳٫ [ Google Scholar ] [ CrossRef ]
- هنیگ، اس. Belgui, M. کاربر محور SDI: پرداختن به نیازهای کاربران در SDI نسل سوم. نمونه Nature-SDIplus. Geoforum Perspekt. ۲۰۱۱ ، ۱۰ ، ۳۰-۴۲٫ [ Google Scholar ]
- ماسو، جی. پونز، ایکس. Zabala، A. تنظیم SDI نسل دوم: جنبه های نظری و موارد استفاده واقعی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۲ ، ۲۶ ، ۹۸۳-۱۰۱۴٫ [ Google Scholar ] [ CrossRef ]
- لاکاستا، جی. لوپز-پلیسر، FJ; اسپژو-گارسیا، بی. نوگراس-ایسو، جی. Zarazaga-Soria، سیستم بازیابی اطلاعات مبتنی بر تجمع FJ برای کاتالوگ های داده های مکانی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۷ ، ۳۱ ، ۱۵۸۳-۱۶۰۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- Latre، MA; لاکاستا، جی. موژیکا-آبرگو، ای. نوگراس-ایسو، جی. Zarazaga-Soria، FJ رویکردی برای تسهیل ادغام داده های هیدرولوژیکی با استفاده از هستی شناسی ها و اصطلاحنامه های چند زبانه. در پیشرفت در علم GIS. یادداشت های سخنرانی در اطلاعات جغرافیایی و نقشه برداری (LNG&C) . Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۹; صص ۱۵۵-۱۷۱٫ [ Google Scholar ]
- Ingersoll، GS; مورتون، تی اس؛ Farris، AL Taming Text: نحوه یافتن، سازماندهی و دستکاری آن . Manning: Shelter Island، نیویورک، ایالات متحده آمریکا، ۲۰۱۲٫ [ Google Scholar ]
- پورتر، MF Snowball: زبانی برای الگوریتم های بنیادی. ۲۰۰۱٫ در دسترس آنلاین: http://snowball.tartarus.org/texts/introduction.html (در ۲۶ نوامبر ۲۰۲۱ قابل دسترسی است).
- Cardellino، C. Spanish Billion Words Corpus and Embeddings. ۲۰۱۶٫ موجود به صورت آنلاین: https://crscardellino.ar/SBWCE/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
- چه، دبلیو. لیو، ی. وانگ، ی. ژنگ، بی. لیو، تی. به سوی تجزیه UD بهتر: تعبیههای متنی عمیق کلمه، گروه، و الحاق بانک درخت. arXiv ۲۰۱۸ , arXiv:1807.03121. [ Google Scholar ]
- هارتیگان، الگوریتمهای خوشهبندی JA . جان ویلی و پسران: نیویورک، نیویورک، ایالات متحده آمریکا، ۱۹۷۵٫ [ Google Scholar ]
- استر، ام. کریگل، اچ پی؛ ساندر، جی. Xu, X. یک الگوریتم مبتنی بر چگالی برای کشف خوشه ها در پایگاه داده های فضایی بزرگ با نویز. در مجموعه مقالات دومین کنفرانس بین المللی کشف دانش و داده کاوی، پورتلند، OR، ایالات متحده آمریکا، ۲ تا ۴ اوت ۱۹۹۶٫ Simoudis, E., Han, J., Fayyad, U., Eds.; انجمن برای پیشرفت هوش مصنوعی: پالو آلتو، کالیفرنیا، ایالات متحده آمریکا، ۱۹۹۶; ص ۲۲۶-۲۳۱٫ [ Google Scholar ]
- ورما، م. سریواستاوا، م. چاک، ن. دیسوار، AK; گوپتا، ن. مطالعه مقایسه ای الگوریتم های مختلف خوشه بندی در داده کاوی. بین المللی J. Eng. Res. Appl. ۲۰۱۲ ، ۲ ، ۱۳۷۹–۱۳۸۴٫ [ Google Scholar ]
- Voorhees، EM پیاده سازی الگوریتم های خوشه بندی سلسله مراتبی تجمعی برای استفاده در بازیابی اسناد. Inf. روند. مدیریت ۱۹۸۶ ، ۲۲ ، ۴۶۵-۴۷۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- روزنبرگ، ا. Hirschberg, J. V-measure: یک معیار ارزیابی خوشه خارجی مبتنی بر آنتروپی مشروط. در مجموعه مقالات کنفرانس مشترک ۲۰۰۷ در مورد روشهای تجربی در پردازش زبان طبیعی و یادگیری زبان طبیعی محاسباتی ; Eisner, J., Ed. انجمن زبانشناسی محاسباتی: پراگ، جمهوری چک، ۲۰۰۷; صص ۴۱۰-۴۲۰٫ در دسترس آنلاین: https://aclanthology.org/D07-1043/ (دسترسی در ۲۶ نوامبر ۲۰۲۱).
- Vinh، NX; ایپس، جی. بیلی، جی. اقدامات نظری اطلاعات برای مقایسه خوشهبندی: انواع، ویژگیها، عادیسازی و تصحیح برای شانس. جی. ماخ. فرا گرفتن. Res. ۲۰۱۰ ، ۱۱ ، ۲۸۳۷-۲۸۵۴٫ [ Google Scholar ]
بدون دیدگاه