کلید واژه ها:
مدوید ; مسیرهای GPS ; میانگین گیری بخش ; توالی میانگین گیری ; HC-SIM ; موارد پرت
چکیده گرافیکی
۱٫ مقدمه
-
دقت مدوید چقدر است؟
-
چه زمانی کار می کند و چه زمانی نه؟
-
آیا در مورد داده های نویزدار بهتر از تکنیک های میانگین گیری موجود کار می کند؟
-
کدام تابع شباهت بهتر عمل می کند و انتخاب چقدر اهمیت دارد؟
۲٫ میانگین گیری بخش
کار میانگینگیری به ظاهر ساده است، زیرا محاسبه میانگین اعداد بیاهمیت است، و تعمیم آن از اسکالر به بردار در تحلیل دادههای چند متغیره آسان است. با این حال، میانگین سری های زمانی به طور قابل توجهی چالش برانگیزتر است، زیرا نقاط نمونه لزوماً همسو نیستند. حل مسئله میانگینگیری با استفاده از میانگین امکانپذیر است، که به عنوان هر دنباله ممکن در فضای داده تعریف میشود که مجموع فاصلههای مجذور تمام توالیهای ورودی را به حداقل میرساند [ ۷ ]:
۲٫۱٫ اکتشافی برای یافتن میانگین بخش
۲٫۲٫ مدوید
می توان میانه را به عنوان یک مسئله کمینه سازی نیز تعریف کرد به طوری که میانه نقطه ورودی است که حداقل فاصله متوسط را با سایر نقاط مجموعه دارد. تعمیم این به داده های چند متغیره به عنوان medoid شناخته می شود . به عنوان یک شی داده ورودی تعریف می شود که فاصله کلی آن با سایر مشاهدات حداقل است. مزیت اصلی آن این است که مشکل سپس مشکل جستجوی خطی را کاهش می دهد: شی ورودی را پیدا کنید که این هدف کمینه سازی را برآورده می کند. به طور رسمی، ما medoid را به عنوان [ ۷ ] تعریف می کنیم:
که در آن D یک تابع فاصله یا شباهت بین دو مسیر GPS x i و x j است. به عبارت دیگر، medoid به عنوان یک مسئله بهینه سازی تعریف می شود، مشابه آنچه که ما میانگین را در معادله (۱) تعریف کردیم. تفاوت این است که، به جای اجازه دادن به هر مسیر احتمالی در فضا، مدوید محدود می شود تا یکی از مسیرهای ورودی باشد. این امر فضای جستجو را به میزان قابل توجهی کاهش میدهد و پیچیدگی زمانی نظری یافتن مدوید میتواند به اندازه O( nk ۲ ) باشد که k تعداد مسیرها و n تعداد نقاط در طولانیترین مسیر است.
۲٫۳٫ ترکیبی از اکتشافی و Medoid
۳٫ اقدامات شباهت
۳٫۱٫ شباهت سلولی (C-SIM)
۳٫۲٫ شباهت سلول سلسله مراتبی (HC-SIM)
شباهت سلسله مراتبی سلول (HC-SIM) C-SIM را به سطوح زوم چندگانه گسترش می دهد. ایده این است که اگر منحنی ها در سطوح بالاتر تطابق خوبی داشته باشند، می توان تفاوت های کوچک را تحمل کرد. شکل ۶ را ببینید . C-SIM از شبکه ای به ابعاد ۲۵×۲۵ متر استفاده می کند و تعداد سلول هایی را که بخش به اشتراک می گذارد نسبت به تعداد کل سلول هایی که اشغال می کند، شمارش می کند. HC-SIM از شش سطح بزرگنمایی با اندازههای شبکه ۲۵×۲۵ متر، ۵۰×۵۰ متر، ۱۰۰×۱۰۰ متر، ۲۰۰×۲۰۰ متر، ۴۰۰×۴۰۰ متر و ۸۰۰×۸۰۰ متر استفاده میکند. در مورد داده های نرمال شده به مقیاس (۰،۱) از اندازه های زیر استفاده می شود: ۰٫۵٪، ۱٪، ۲٪، ۴٪، ۸٪، ۱۶٪. سپس شمارش های فردی خلاصه می شود. با توجه به دو مسیر A و B، شباهت سلولی سلسله مراتبی آنها (با سطوح زوم L ) به صورت زیر محاسبه می شود [ ۷ ]:
۳٫۳٫ فاصله ی اقلیدسی
۳٫۴٫ طولانی ترین دنباله متداول (LCSS)
۳٫۵٫ ویرایش فاصله در دنباله واقعی (EDR)
۳٫۶٫ تاب خوردگی زمانی پویا (DTW)
۳٫۷٫ ویرایش فاصله با جریمه واقعی (ERP)
۳٫۸٫ فاصله های فرشه و هاسدورف
۳٫۹٫ فاصله مسیر درونیابی (IRD)
۴٫ راه اندازی آزمایشی
-
میانگین گیری بخش [ ۷ ]http://cs.uef.fi/sipu/segments/training.html (دسترسی در ۲۴ نوامبر ۲۰۲۱)
-
استخراج شبکه جاده ای [ ۲۵ ]http://cs.uef.fi/mopsi/routes/network (دسترسی در ۲۴ نوامبر ۲۰۲۱)
-
شباهت مسیرها [ ۵ ]http://cs.uef.fi/mopsi/routes/similarityApi/demo.php (دسترسی در ۲۴ نوامبر ۲۰۲۱)
-
تشخیص حالت حمل و نقل [ ۴۶ ]http://cs.uef.fi/mopsi/routes/transportationModeApi (دسترسی در ۲۴ نوامبر ۲۰۲۱)
-
کاهش مسیر [ ۴۷ ]http://cs.uef.fi/mopsi/routes/reductionApi (دسترسی در ۲۴ نوامبر ۲۰۲۱)
-
ابزارهای یکپارچه در Mopsihttp://cs.uef.fi/mopsi/ (دسترسی در ۲۴ نوامبر ۲۰۲۱)
۵٫ نتایج
-
HC-SIM بهترین عملکرد را با داده های آموزشی دارد.
-
انتخاب تابع فاصله فقط یک اثر جزئی دارد.
-
نتایج Medoid به طور قابل توجهی بدتر از میانگین پایه است [ ۷ ].
۶٫ تجزیه و تحلیل دقیق
۶٫۱٫ سر و صدا
۶٫۲٫ سفارش مجدد و حذف موارد پرت
۶٫۳٫ عادی سازی
۶٫۴٫ اندازه مجموعه ها
۶٫۵٫ تعداد امتیاز
۷٫ نتیجه گیری
-
دقت medoid به وضوح کمتر از بهترین میانگین اکتشافی (پایه) است.
-
برخلاف انتظارات، medoid در برابر نویز آسیب پذیر است.
-
Medoid تمایل دارد بخش های کوتاه را انتخاب کند.
-
Medoid ویژگی های (گاهی ناخواسته) مسیر اصلی را کپی می کند.
-
کند است (میانگین تمام ست ها بیش از ۱ ساعت طول می کشد).
منابع
- هاوتاماکی، وی. نیکانن، پ. Fränti، P. خوشه بندی سری های زمانی توسط نمونه های اولیه تقریبی. در مجموعه مقالات کنفرانس بین المللی تشخیص الگو، تامپا، فلوریدا، ایالات متحده آمریکا، ۸-۱۱ دسامبر ۲۰۰۸٫ صص ۱-۴٫ [ Google Scholar ]
- بوچین، ک. دریمل، ا. ون د لایل، ن. Nusser, A. Klcluster: Cluster-based Clustering of Trajectories. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی (SIGSPATIAL ’19)، شیکاگو، IL، ایالات متحده آمریکا، ۵ تا ۸ نوامبر ۲۰۱۹؛ صص ۴۹۶-۴۹۹٫ [ Google Scholar ]
- بیاجیونی، جی. اریکسون، جی. استنتاج نقشه های راه از ردیابی سیستم موقعیت یابی جهانی: بررسی و ارزیابی مقایسه ای. ترانسپ Res. ضبط ۲۰۱۲ ، ۲۲۹۱ ، ۶۱-۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- احمد، م. کاراگیورگو، اس. Pfoser، D.; Wenk, C. مقایسه و ارزیابی الگوریتمهای ساخت نقشه با استفاده از دادههای ردیابی خودرو. GeoInformatica ۲۰۱۵ ، ۱۹ ، ۶۰۱-۶۳۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ماریسکو-ایستودور، آر. Fränti، P. روش مبتنی بر شبکه برای تجزیه و تحلیل مسیر GPS برای بازیابی. ACM Trans. تف کردن سیستم الگوریتم (TSAS) ۲۰۱۷ ، ۳ ، ۸٫ [ Google Scholar ] [ CrossRef ]
- جین، بی جی; شولتز، دی. شرایط کافی برای وجود میانگین نمونه سری زمانی تحت تاب خوردگی زمانی پویا. ان ریاضی. آرتیف. هوشمند ۲۰۲۰ ، ۸۸ ، ۳۱۳-۳۴۶٫ [ Google Scholar ] [ CrossRef ]
- فرانتی، پ. Mariescu-Istodor, R. میانگین رقابت بخشهای GPS 2019. تشخیص الگو. ۲۰۲۱ , ۱۱۲ , ۱۰۷۷۳۰٫ [ Google Scholar ] [ CrossRef ]
- استیویل-کاسترول، وی. موری، AT کشف ارتباط در دادههای مکانی – یک رویکرد مبتنی بر مدوید کارآمد. در تحقیق و توسعه در کشف دانش و داده کاوی ; نکات سخنرانی در هوش مصنوعی; Springer: برلین/هایدلبرگ، آلمان، ۱۹۹۸; جلد ۱۳۹۴٫ [ Google Scholar ]
- موکرجی، ا. باسو، تی. یک طرح وزن دهی مبتنی بر مدوید برای قاعده تصمیم گیری نزدیکترین همسایه به سمت طبقه بندی متن موثر. SN Appl. علمی ۲۰۲۰ ، ۲ ، ۱-۹٫ [ Google Scholar ] [ CrossRef ]
- فرانتی، پ. Yang, J. Medoid-Shift برای حذف نویز برای بهبود خوشه بندی. در مجموعه مقالات کنفرانس بین المللی هوش مصنوعی و محاسبات نرم، زکوپان، لهستان، ۳ تا ۷ ژوئن ۲۰۱۸؛ Springer: Cham, Switzerland, 2018; صص ۶۰۴-۶۱۴٫ [ Google Scholar ]
- پارک، اچ.-اس. جون، سی.-اچ. یک الگوریتم ساده و سریع برای خوشه بندی K-medoids. سیستم خبره Appl. ۲۰۱۹ ، ۳۶ ، ۳۳۳۶–۳۳۴۱٫ [ Google Scholar ] [ CrossRef ]
- کافمن، ال. Rousseeuw, PJ یافتن گروهها در دادهها: مقدمهای بر تحلیل خوشهای . جان وایلی و پسران: هوبوکن، نیوجرسی، ایالات متحده آمریکا، ۲۰۰۹; جلد ۳۴۴٫ [ Google Scholar ]
- واگستاف، ک. کاردی، سی. راجرز، اس. Schroedl, S. K-محدود به معنی خوشه بندی با دانش پس زمینه است. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین (ICML)، ویلیامزتاون، MA، ایالات متحده آمریکا، ۲۸ ژوئن تا ۱ ژوئیه ۲۰۰۱٫ جلد ۱، ص ۵۷۷–۵۸۴٫ [ Google Scholar ]
- کریشنا، ک. الگوریتم مورتی، MN ژنتیک K-means. IEEE Trans. سیستم مرد سایبرن. قسمت B (سایبرن.) ۱۹۹۹ ، ۲۹ ، ۴۳۳-۴۳۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ون در لان، م. پولارد، ک. برایان، جی. الگوریتم پارتیشن بندی جدید پیرامون مدویدها. J. Stat. محاسبه کنید. شبیه سازی ۲۰۰۳ ، ۷۳ ، ۵۷۵-۵۸۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فرانتی، پ. Sieranoja، S. چقدر می توان k-means را با استفاده از مقداردهی اولیه و تکرار بهتر بهبود بخشید؟ تشخیص الگو ۲۰۱۹ ، ۹۳ ، ۹۵-۱۱۲٫ [ Google Scholar ] [ CrossRef ]
- Fränti، P. کارایی خوشه بندی مبادله تصادفی. J. Big Data ۲۰۱۸ , ۵ , ۱۳٫ [ Google Scholar ] [ CrossRef ]
- رضایی، م. Fränti, P. آیا می توان تعداد خوشه ها را با شاخص های خارجی تعیین کرد؟ دسترسی IEEE ۲۰۲۰ ، ۸ ، ۸۹۲۳۹–۸۹۲۵۷٫ [ Google Scholar ] [ CrossRef ]
- یانگ، جی. رهاردجا، س. Fränti، P. تشخیص و فیلتر کردن نقاط پرت میانگین تغییر. تشخیص الگو ۲۰۲۱ ، ۱۱۵ ، ۱۰۷۸۷۴٫ [ Google Scholar ] [ CrossRef ]
- فرانتی، پ. Sieranoja، S. K-به معنی ویژگیها در شش مجموعه داده معیار خوشهبندی است. Appl. هوشمند ۲۰۱۸ ، ۴۸ ، ۴۷۴۳-۴۷۵۹٫ [ Google Scholar ] [ CrossRef ]
- شولتز، دی. جین، بی. تحلیل غیرهموار و روشهای زیرگروهی برای میانگینگیری در فضاهای تابدار زمانی پویا. تشخیص الگو ۲۰۱۸ ، ۷۴ ، ۳۴۰-۳۵۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- بریل، ام. فلوشنیک، تی. فروس، وی. جین، بی. نیدرمایر، آر. شولتز، دی. محاسبه میانگین دقیق در فضاهای تاب دار زمان پویا. حداقل داده بدانید. کشف کنید. ۲۰۱۹ ، ۳۳ ، ۲۵۲-۲۹۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- شرودل، اس. واگستاف، ک. راجرز، اس. لنگلی، پی. Wilson, C. استخراج ردیابی GPS برای اصلاح نقشه. حداقل داده بدانید. کشف کنید. ۲۰۰۴ ، ۹ ، ۵۹-۸۷٫ [ Google Scholar ] [ CrossRef ]
- پیگل، ال. Tiller, W. The NURBS Book , ۲nd ed.; Springer: برلین/هایدلبرگ، آلمان، ۱۹۹۷٫ [ Google Scholar ]
- ماریسکو-ایستودور، آر. Fränti، P. Cellnet: استنتاج شبکه های جاده از مسیرهای GPS. ACM Trans. تف کردن سیستم الگوریتم (TSAS) ۲۰۱۸ ، ۴ ، ۱-۲۲٫ [ Google Scholar ] [ CrossRef ]
- فتحی، ع. Krumm, J. تشخیص تقاطع جاده ها از ردیابی GPS. در مجموعه مقالات کنفرانس بین المللی علم اطلاعات جغرافیایی، زوریخ، سوئیس، ۱۴-۱۷ سپتامبر ۲۰۱۰٫ Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۰; صص ۵۶-۶۹٫ [ Google Scholar ]
- اتین، ال. دووگل، تی. بوچین، م. مک آردل، جی. طرح جعبه مسیر: الگویی جدید برای خلاصه کردن حرکات. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۶ ، ۳۰ ، ۸۳۵-۸۵۳٫ [ Google Scholar ] [ CrossRef ]
- Marteau، سری PF Times میانگین گیری و حذف نویز از دیدگاه احتمالی در هسته های الاستیک زمان. بین المللی J. Appl. ریاضی. محاسبه کنید. علمی ۲۰۱۹ ، ۲۹ ، ۳۷۵–۳۹۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- داگلاس، دی اچ. الگوریتم های Peucker، TK برای کاهش تعداد نقاط مورد نیاز برای نمایش یک خط دیجیتالی یا کاریکاتور آن. Cartographica ۱۹۷۳ , ۱۰ , ۱۱۲-۱۲۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- درزنر، ز. کلامروث، ک. شوبل، آ. Wesolowsky، GO مشکل وبر. در محل تاسیسات: کاربردها و تئوری ; Springer: Berlin/Heidelberg، آلمان، ۲۰۰۲٫ [ Google Scholar ]
- سالوادور، اس. چان، پی. به سوی تاب برداشتن زمانی دینامیکی دقیق در زمان و مکان خطی. هوشمند داده آنال. ۲۰۰۷ ، ۱۱ ، ۵۶۱-۵۸۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- یانگ، جی. ماریسکو-ایستودور، آر. Fränti، P. سه روش سریع برای میانگینگیری بخشهای GPS. Appl. علمی ۲۰۱۹ ، ۹ ، ۴۸۹۹٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- تراسارتی، ر. گیدوتی، آر. مونریال، آ. Giannotti، F. Myway: پیشبینی مکان از طریق پروفایل تحرک. Inf. سیستم ۲۰۱۷ ، ۶۴ ، ۳۵۰-۳۶۷٫ [ Google Scholar ] [ CrossRef ]
- ولاچوس، م. گونوپولوس، دی. کولیوس، جی. معیارهای تشابه قوی برای مسیرهای جسم متحرک. در مجموعه مقالات سیزدهمین کارگاه بین المللی IEEE در مورد پایگاه داده و برنامه های کاربردی سیستم های خبره (DEXA’02)، Aix-en-Provence، فرانسه، ۲-۶ سپتامبر ۲۰۰۲٫ صص ۷۲۱-۷۲۶٫ [ Google Scholar ]
- چن، ال. اوزسو، MT; Oria، V. جستجوی شباهت قوی و سریع برای مسیر حرکت جسم متحرک. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 2005 در مدیریت داده ها، بالتیمور، MD، ایالات متحده آمریکا، ۱۴-۱۶ ژوئن ۲۰۰۵٫ صص ۴۹۱-۵۰۲٫ [ Google Scholar ]
- Rockafellar، TR; Wets، RJ-B. تجزیه و تحلیل متغیر ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۹; جلد ۳۱۷٫ [ Google Scholar ]
- چن، ال. Ng, R. در مورد ازدواج lp-هنجارها و فاصله ویرایش. در مجموعه مقالات سی امین کنفرانس بین المللی در مورد پایگاه های داده بسیار بزرگ، تورنتو، ON، کانادا، ۳۱ اوت تا ۳ سپتامبر ۲۰۰۴٫ جلد ۳۰، صص ۷۹۲–۸۰۳٫ [ Google Scholar ]
- ژنگ، ی. ژو، X. محاسبات با مسیرهای فضایی . Springer Science & Business Media: برلین/هایدلبرگ، آلمان، ۲۰۱۱٫ [ Google Scholar ]
- گرادشتاین، IS; Ryzhik, IM Tables of Integrals, Series, and Products , ۶th ed.; مطبوعات دانشگاهی: سن دیگو، کالیفرنیا، ایالات متحده آمریکا، ۲۰۰۰; صص ۱۱۱۴–۱۱۲۵٫ [ Google Scholar ]
- ایتر، تی. Mannila، H. محاسبه فاصله فریشه گسسته. در گزارش فنی CD-TR 94/64 ; آزمایشگاه کریستین داپلر برای سیستم های خبره، TU وین: وین، اتریش، ۱۹۹۴; صص ۶۳۶-۶۳۷٫ [ Google Scholar ]
- نی، پی. چن، ز. شیا، ن. هوانگ، Q. Li، F. تحلیل شباهت مسیر با وزن جهت و همسایگی k برای دادههای AIS. ISPRS Int. J. Geo-Inf. ۲۰۲۱ ، ۱۰ ، ۷۵۷٫ [ Google Scholar ] [ CrossRef ]
- وانگ، اچ. سو، اچ. ژنگ، ک. صادق، س. ژو، ایکس. مطالعه اثربخشی بر روی معیارهای شباهت مسیر. در مجموعه مقالات بیست و چهارمین کنفرانس پایگاه داده استرالیا، آدلاید، استرالیا، ۲۹ ژانویه تا ۱ فوریه ۲۰۱۳٫ جلد ۱۳۷، ص ۱۳–۲۲٫ [ Google Scholar ]
- یوجیان، ال. بو، L. یک متریک فاصله نرمال شده لونشتاین. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۰۷ ، ۲۹ ، ۱۰۹۱-۱۰۹۵٫ [ Google Scholar ] [ CrossRef ]
- مولر، ام. تاب برداشتن زمان پویا. در بازیابی اطلاعات برای موسیقی و حرکت ; Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۷; صص ۶۹-۸۴٫ [ Google Scholar ]
- Huttenlocher، DP; کلندرمن، GA؛ راکلیج، WJ مقایسه تصاویر با استفاده از فاصله Hausdorff. IEEE Trans. الگوی مقعدی ماخ هوشمند ۱۹۹۳ ، ۱۵ ، ۸۵۰-۸۶۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- واگا، ک. Tabarcea، A. چن، ام. Fränti، P. تشخیص نوع حرکت با تقسیم بندی مسیر و طبقه بندی. در مجموعه مقالات هشتمین کنفرانس بین المللی محاسبات مشارکتی: شبکه، برنامه های کاربردی و اشتراک گذاری (CollaborateCom)، پیتسبورگ، PA، ایالات متحده آمریکا، ۱۴ تا ۱۷ اکتبر ۲۰۱۲٫ [ Google Scholar ]
- چن، ام. خو، ام. Fränti، P. الگوریتم تقریب چند ضلعی چند ضلعی O(N) سریع برای ساده سازی مسیر GPS. IEEE Trans. فرآیند تصویر ۲۰۱۲ ، ۲۱ ، ۲۷۷۰-۲۷۸۵٫ [ Google Scholar ] [ CrossRef ]
- ماریسکو-ایستودور، آر. Fränti, P. ورودی اشاره برای جستجوی مسیر GPS. در مجموعه مقالات کارگاه بین المللی مشترک در مورد شناسایی الگوی ساختاری، نحوی و آماری (S+SSPR 2016)، مریدا، مکزیک، ۲۹ نوامبر تا ۲ دسامبر ۲۰۱۶؛ صص ۴۳۹-۴۴۹٫ [ Google Scholar ]
بدون دیدگاه