کلید واژه ها:
خوشه بندی ; امتیاز اقامت ; چگالی شبکه تشخیص نقاط مهم
۱٫ مقدمه
- (۱)
-
با توجه به تعداد زیاد نقاط اقامت در مجموعه دادههای موقعیت تاکسی، این مقاله یک پیش پردازش فیلتر بر اساس طبقهبندی نقطه ماندن و آستانههای نقطه ماندن را پیشنهاد میکند، که میتواند از بالا بودن تراکم شبکه در برخی مناطق به دلیل ماندن خودرو جلوگیری کند. مناسبت ها.
- (۲)
-
فضای داده موقعیت اصلی در فرآیند نگاشت شبکه و تعیین نقطه مرزی به سلول های شبکه مستطیلی تقسیم می شود، و اینکه آیا هر سلول شبکه یک شبکه متراکم است یا خیر، با توجه به آستانه چگالی تعریف شده تعیین می شود. ما نقاط مرزی خوشه و نقاط نویز را در سلولهای شبکه غیر متراکم تعیین میکنیم تا از شناسایی دادههای عادی به عنوان نویز جلوگیری کنیم تا دادههای نویز را با دقت بیشتری پردازش کنیم.
- (۳)
-
با توجه به راندمان پایین روشهای خوشهبندی موجود هنگام پردازش مقادیر زیادی داده، این مقاله سلولهای شبکه متراکم مرتبط را برای تشکیل خوشهها متصل میکند. از آنجایی که خوشهبندی به سلولهای شبکه گرایش دارد، نسبت به الگوریتمهای سنتی کارآمدتر است.
- (۴)
-
در نهایت، آزمایشها در مجموعه دادههای واقعی تأیید میکنند که الگوریتم هزینه زمانی خوشهبندی را کاهش میدهد.
۲٫ آثار مرتبط
۳٫ تعاریف مرتبط
تعریف ۱٫
جایی که دمنj= [لمنj،ساعتمنj) فاصله سلول شبکه است دمن در Dj بعد و رضایت بخش ۱ ≤ j ≤ n، لمنj، ساعتمنj نقطه انتهایی چپ و راست بازه هستند و طول بازه طول جانبی سلول شبکه است. از آنجایی که این مقاله در مورد تجزیه و تحلیل خوشه ای از نقاط نمونه برداری توسط داده های موقعیت تاکسی است، منبع داده در اینجا در یک صفحه دو بعدی است، بنابراین بعد فضای مختصات n 2 است و سلول های شبکه را می توان به صورت بصری به عنوان یک شبکه مربع بیان کرد.
تعریف ۲٫
(تراکم سلول های شبکه) پس از تقسیم فضا، تعداد نقاط داده ای که در یک سلول شبکه قرار می گیرند، چگالی سلول شبکه است. اجازه دهید مجموعه نقطه داده ورودی به صورت زیر باشد.
جایی که vمن= {vمن۱،vمن۲،vمن۳، …vمنn}، و vمنj جزء نقطه داده است vمن در نقطه داده مجموعه V در Dj بعد، ابعاد، اندازه. اگر نقطه داده vمن در یک سلول شبکه می افتد دمن بر روی Dj بعد، شرط باید به شرح زیر برآورده شود .
تعریف ۳٫
(نقطه مرکز شبکه) نقطه مرکزی شبکه به نقطه مرکزی هر سلول شبکه و نقطه مرکزی یک سلول شبکه اشاره دارد. دمن به شرح زیر است:
جایی که gمن d _جمنj نقطه مرکزی ریاضی سلول شبکه است دمن که در Dj بعد و فرمول محاسبه آن به شرح زیر است:
جایی که لمنj ، ساعتمنj به ترتیب حداقل و حداکثر مقدار بازه هستند. از این میان، بعد داده های شبکه در این مقاله دو بعد است، یعنی طول و عرض جغرافیایی. بنابراین، نقطه مرکزی سلول شبکه دمن است gمن d _جمن= ( l o n gمن تو _ _e ، l a t i t u dه )، که در آن روش محاسبه طول جغرافیایی میانگین حداقل و حداکثر طول سلول شبکه است. همین امر برای محاسبات عرض جغرافیایی نیز صادق است.
تعریف ۴٫
(نقطه مرکز داده) به موقعیت مرکزی نقاط داده موجود در سلول شبکه اشاره دارد. K نقطه داده در یک سلول شبکه وجود دارد دمن بیان شده است V= {v1،v2،v3، …vک}، و سپس نقطه مرکز داده سلول شبکه با فرمول (۶) محاسبه می شود.
در میان آنها، دa t aجمنj مقدار میانگین حسابی مولفه های طرح ریزی شده k نقاط داده V روی بعد Dj است و با فرمول (۷) محاسبه می شود.
تعریف ۵٫
۴٫ روش خوشه بندی بر اساس Stay Point و Grid Density
۴٫۱٫ Stay Point Filtering
۴٫۲٫ نقشه شبکه
۴٫۳٫ قضاوت نقطه مرزی
الگوریتم ۱٫ الگوریتم قضاوت مرزی خوشه | |
ورودی: مجموعه شبکه GS ، آستانه چگالی T | |
خروجی: مجموعه شبکه فشرده GS’ | |
۱٫ | مجموعه شبکه فشرده اولیه GS’ |
۲٫ | برای هر شبکه G در GS |
۳٫ | اگر چگالی (G) < T |
۴٫ | اگر G مستقیماً با شبکه فشرده مرتبط باشد |
۵٫ | G را به GS اضافه کنید |
۶٫ | در غیر این صورت اجازه دهید مرکز داده مرکز G باشد و شبکه را حرکت دهد |
۷٫ | اگر چگالی (G) > T |
۸٫ | G یک شبکه محدود به خوشه است و آن را به GS اضافه کنید |
۹٫ | دیگر |
۱۰٫ | G شبکه نویز است و آن را رها کنید |
۱۱٫ | دیگر |
۱۲٫ | G را به GS اضافه کنید |
۱۳٫ | بازگشت GS’ |
۴٫۴٫ خوشه بندی شبکه متراکم
الگوریتم ۲٫ الگوریتم خوشه بندی شبکه متراکم (DGCA) | |
ورودی: مجموعه شبکه فشرده GS’ ، شبکه فشرده G | |
خروجی: مجموعه خوشه ای CS | |
۱٫ | مجموعه کلاستر Init CS |
۲٫ | برای هر شبکه بدون خوشه G’ در GS’ |
۳٫ | اگر G’ خوشه نباشد و G مستقیماً با G مرتبط باشد |
۴٫ | G’ را به CS اضافه کنید و G’ را در GS’ حذف کنید |
۵٫ | DGCA ( GS’ ، G’ ) |
۶٫ | CS را برگردانید |
۵٫ نتایج تجربی و تجزیه و تحلیل
۵٫۱٫ مجموعه داده ها و محیط تجربی
۵٫۲٫ تجزیه و تحلیل فیلتر Stay Point
۵٫۳٫ تجزیه و تحلیل نقشه شبکه
۵٫۴٫ تجزیه و تحلیل بصری خوشه بندی شبکه متراکم
۵٫۵٫ تجزیه و تحلیل نتایج آزمایش مقایسه ای
- (۱)
-
HF_DBSCAN
HF_DBSCAN یک الگوریتم مبتنی بر DBSCAN بهبود یافته است که توسط Luo و همکارانش پیشنهاد شده است. در سال ۲۰۱۷ [ ۳۰ ]. DBSCAN یک الگوریتم کلاسیک مبتنی بر چگالی است که برای یافتن مناطق با چگالی بالا در فضا استفاده می شود و مشتقات مختلفی از الگوریتم برای یافتن مناطق کانونی شهری پیشنهاد شده است. چگالی نقطه فعلی در الگوریتم DBSCAN با فاصله از نقطه فعلی تعیین می شود. تعداد نقاط در یک فاصله معین برای تعادل استفاده می شود. الگوریتم HF_DBSCAN از یک تابع گاوسی به عنوان چگالی نقاط استفاده می کند. روش محاسبه به صورت فرمول (۸) می باشد.
جایی که پمن( i = ۱ , ۲ , ۳ … , n )نشان دهنده نقطه، دمن جنشان دهنده فاصله اقلیدسی بین پمنو پj، و σ۱نشان دهنده انحراف معیار است. انحراف معیار در این آزمایش ۰٫۳ است.
- (۲)
-
PS_DBSCAN
- (۳)
-
تجزیه و تحلیل کنتراست دقت خوشه بندی
ویژگی No در جدول تعداد خوشه را نشان می دهد، m تعداد نقاط داده را در خوشه نشان می دهد. هر چه m بزرگتر باشد ، نقاط بیشتری در خوشه شرکت می کنند و نقاط نویز کمتری دور ریخته می شود. طول و عرض جغرافیایی مختصات مرکز خوشه هستند، یعنی فاصله و حداقل تمام نقاط خوشه تا نقطه. LoadLength نشان دهنده فاصله خوشه بندی خوشه، مجموع فواصل از همه نقاط تا مرکز خوشه است. محاسبه به صورت فرمول (۹) است.
جایی که p نشان دهنده عنصر خوشه در خوشه است. مرکز نشان دهنده مرکز خوشه بندی خوشه، یعنی مختصات طول و عرض جغرافیایی است. میانگین نشان دهنده میانگین فاصله تجمع هر نقطه است که در فرمول (۱۰) محاسبه شده است.
- (۴)
-
تحلیل مقایسه ای زمان اجرا
۶٫ نتیجه گیری
منابع
- شولز، RW; Lu, Y. تشخیص الگوهای فعالیت پویا در سطح جمعی از دادههای مسیر با حجم زیاد. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۴ ، ۲۸ ، ۹۴۶-۹۶۳٫ [ Google Scholar ] [ CrossRef ]
- شان، جی. آلوز، آ. رودریگز، اف. فریرا، جی.، جونیور. Pereira، FC داده های نقطه مورد علاقه استخراج از شبکه های اجتماعی برای طبقه بندی و تفکیک کاربری زمین شهری. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۵ ، ۵۳ ، ۳۶-۴۶٫ [ Google Scholar ]
- یو، ی. ژوانگ، ی. بله، پیش از این؛ زی، جی. Ma، CL; لی، QQ اندازه گیری استفاده مختلط مبتنی بر POI و روابط آنها با سرزندگی محله. بین المللی جی. جئوگر. Inf. سیستم ۲۰۱۷ ، ۳۱ ، ۶۵۸-۶۷۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- مینگ، ن. او، س. جینگ، جی. پیشبینی جریان مسافر در مترو تحت رویدادها با رسانههای اجتماعی. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۱۷ ، ۱۸ ، ۱۶۲۳-۱۶۳۲٫ [ Google Scholar ]
- یانگ، ایکس. چن، آ. نینگ، بی. تانگ، تی. اندازه گیری تنوع مسیر برای شبکه های حمل و نقل ریلی شهری: مطالعه موردی شبکه متروی پکن. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۱۷ ، ۱۸ ، ۲۵۹-۲۶۸٫ [ Google Scholar ] [ CrossRef ]
- ژانگ، اف. ژائو، جی. تیان، سی. خو، سی. لیو، ایکس. Rao, L. تقسیم بندی مکانی-زمانی سفرهای مترو با استفاده از داده های کارت هوشمند. IEEE Trans. وه تکنولوژی ۲۰۱۶ ، ۶۵ ، ۱۱۳۷-۱۱۴۹٫ [ Google Scholar ] [ CrossRef ]
- Le، MK; باسکار، ا. Chung, E. تقسیم بندی مسافران با استفاده از داده های کارت هوشمند. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۱۵ ، ۱۶ ، ۱۵۳۷-۱۵۴۸٫ [ Google Scholar ]
- ایتو، م. یوکویاما، دی. تویودا، م. تومیتا، ی. کاوامورا، اس. Kitsuregawa، M. کاوش بصری تغییرات در جریان مسافران و توییتها در شبکه مترو Mega-City. IEEE Trans. کلان داده ۲۰۱۶ ، ۲ ، ۸۵-۹۹٫ [ Google Scholar ] [ CrossRef ]
- چن، ی. Chao، S. تجزیه و تحلیل عملکرد رفتار حسگر گوشی هوشمند برای تشخیص فعالیت انسانی. IEEE Access ۲۰۱۷ ، ۵ ، ۳۰۹۵–۳۱۱۰٫ [ Google Scholar ] [ CrossRef ]
- ژانگ، دبلیو. چی، جی. باند، پ. هوآ، ال. لی، اس. Wu, Z. تشخیص و ارزیابی رویداد اجتماعی در مقیاس شهر با ردیابی تاکسی. Acm Trans. هوشمند سیستم تکنولوژی ۲۰۱۵ ، ۶ ، ۱-۲۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فوکس، جی. استنج، اچ. هکر، دی. آندرینکو، ن. آندرینکو، جی. ساخت تفسیر معنایی رفتارهای حرکتی روتین و غیرعادی از داده های بزرگ. Sigspatial Spec. ۲۰۱۵ ، ۷ ، ۲۷-۳۴٫ [ Google Scholar ] [ CrossRef ]
- Unsalan, C. اندازه گیری توسعه زمین در مناطق شهری با استفاده از نمودار ویژگی های نظری و آماری شرطی. IEEE Trans. Geosci. Remote Sens. ۲۰۰۷ , ۴۵ , ۳۹۸۹–۳۹۹۹٫ [ Google Scholar ] [ CrossRef ]
- یین، جی. سلیمان، ع. یین، دی. وانگ، اس. ترسیم مرزهای شهری از یک شبکه تحرک تعاملات فضایی: مطالعه موردی بریتانیای کبیر با داده های توئیتر موقعیت جغرافیایی. بین المللی جی. جئوگر. Inf. سیستم ۲۰۱۷ ، ۳۱ ، ۱۲۹۳-۱۳۱۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- یوان، نیوجرسی؛ ژنگ، ی. Xie، X. وانگ، ی. Xiong، H. کشف مناطق عملکردی شهری با استفاده از مسیرهای فعالیت پنهان. IEEE Trans. بدانید. مهندسی داده ۲۰۱۵ ، ۲۷ ، ۷۱۲-۷۲۵٫ [ Google Scholar ] [ CrossRef ]
- سرکار، س. چاولا، س. Parambath، SP; سریواستاوا، جی. Borge-Holthoefer، J. استنتاج ساختار شهری موثر از دینامیک جریان ترافیک. IEEE Trans. کلان داده ۲۰۱۷ ، ۳ ، ۱۸۱-۱۹۳٫ [ Google Scholar ] [ CrossRef ]
- کنگ، ایکس. فنگ، ایکس. وانگ، جی. رحیم، ع. Das، SK پیشنهاد سرویس ترکیبی زمان-مکان-رابطه بر اساس داده های مسیر تاکسی. IEEE Trans. Ind. اطلاع رسانی. ۲۰۱۷ ، ۱۳ ، ۱۲۰۲-۱۲۱۲٫ [ Google Scholar ] [ CrossRef ]
- لی، جی. شین، آی. پارک، جی.-ال. تجزیه و تحلیل الگوی تحویل مسافر برای توصیه مکان تاکسی. در مجموعه مقالات چهارمین کنفرانس بین المللی محاسبات شبکه ای و مدیریت اطلاعات پیشرفته، Gyeongju، کره، ۲-۴ سپتامبر ۲۰۰۸٫ جلد ۱، ص ۱۹۹–۲۰۴٫ [ Google Scholar ]
- Thuillier، E. معلیک، ال. لامروس، س. Caminada، A. خوشه بندی الگوهای هفتگی تحرک انسان از طریق داده های تلفن همراه. IEEE Trans. اوباش محاسبه کنید. ۲۰۱۸ ، ۱۷ ، ۸۱۷-۸۳۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- جین، AK; قانون، خوشهبندی دادههای MHC: معضل کاربر. در کنفرانس بین المللی تشخیص الگو و هوش ماشینی ؛ PReMI 2005. نکات سخنرانی در علوم کامپیوتر. Springer: برلین/هایدلبرگ، آلمان، ۲۰۰۵; جلد ۳۷۷۶، ص ۱-۱۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- شی، ایکس. گوا، ز. زینگ، اف. کای، جی. یانگ، ال. خودآموزی برای خوشه بندی چهره. تشخیص الگو ۲۰۱۸ ، ۷۹ ، ۲۷۹-۲۸۹٫ [ Google Scholar ] [ CrossRef ]
- دیگو، IMd; Siordia، OS؛ فرناندز-ایزابل، آ. کوند، سی. Cabello، E. ترتیب داده های ذهنی با استفاده از تکنیک های خوشه بندی برای آموزش سیستم های خبره. سیستم خبره Appl. ۲۰۱۹ ، ۱۱۵ ، ۱-۱۵٫ [ Google Scholar ] [ CrossRef ]
- موسویراد، س.ج. ابراهیم پور کومله، ح. Schaefer, G. خوشه بندی تصویر موثر بر اساس جستجوی ذهنی انسان. Appl. محاسبات نرم. ۲۰۱۹ ، ۷۸ ، ۲۰۹–۲۲۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هو، جی. گائو، اچ. Li, X. DSets-DBSCAN: الگوریتم خوشه بندی بدون پارامتر. IEEE Trans. فرآیند تصویر ۲۰۱۶ ، ۲۵ ، ۳۲-۳۹٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
- غفاری، ر. گلپرداز، م. هلفروش، ام اس; Danyali, H. یک الگوریتم سریع و وزنی CRF بر اساس یک تولید سوپرپیکسل دو مرحله ای برای تقسیم بندی تصویر SAR. بین المللی J. Remote Sens. ۲۰۲۰ , ۴۱ , ۳۵۳۵–۳۵۵۷٫ [ Google Scholar ] [ CrossRef ]
- ژو، تی. لیو، ایکس. کیان، ز. چن، اچ. تائو، F. به روز رسانی دینامیک و نظارت بر ورود AOI از طریق خوشه بندی مکانی-زمانی نقاط رها. پایداری ۲۰۱۹ ، ۱۱ ، ۶۸۷۰٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- فری، بی جی؛ Dueck، D. خوشه بندی با ارسال پیام بین نقاط داده. Science ۲۰۰۷ ، ۳۱۵ ، ۹۷۲-۹۷۶٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
- شویر، جی. بوروسو، جی. الگوریتمهای خوشهبندی حرکات فردی و دادهکاوی جغرافیایی برای برجسته کردن نقاط داغ در مسیرهای ناوبری شخصی. در مجموعه مقالات کنفرانس بین المللی علوم محاسباتی ۲۰۱۱، سانتاندر، اسپانیا، ۲۰ تا ۲۳ ژوئن ۲۰۱۱٫ ص ۴۵۴-۴۶۵٫ [ Google Scholar ]
- ژو، سی. دان، اف. لودفورد، پی. شکر، س. تروین، ال. کشف مکانهای معنادار شخصی: یک رویکرد خوشهبندی تعاملی. ACM Trans. Inf. سیستم ۲۰۰۷ ، ۲۵ ، ۱۲-۱۷٫ [ Google Scholar ] [ CrossRef ]
- هوانگ، اس. ایوانز، سی. هانکه، تی. تشخیص توقف قسمت از مسیرهای GPS با شکاف. در دیدن شهرها از طریق داده های بزرگ ؛ Springer: Cham, Switzerland, 2017; ص ۴۲۷-۴۳۹٫ [ Google Scholar ]
- لو، تی. ژنگ، ایکس. خو، جی. فو، ک. Ren, W. الگوریتم DBSCAN بهبود یافته برای تشخیص توقف در مسیرهای فردی. ISPRS Int. J. Geo-Inf. ۲۰۱۷ ، ۶ ، ۶۳-۷۴٫ [ Google Scholar ] [ CrossRef ]
- ژائو، کیو. شی، ی. لیو، کیو. فرانتی، پی. الگوریتم خوشهبندی در حال رشد شبکه برای دادههای جغرافیایی-مکانی. تشخیص الگو Lett. ۲۰۱۵ ، ۵۳ ، ۷۷-۸۴٫ [ Google Scholar ] [ CrossRef ]
- یوان، جی. ژنگ، ی. Xie، X. Sun, G. رانندگی با دانش از دنیای فیزیکی. در مجموعه مقالات هفدهمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، ۲۱ تا ۲۴ اوت ۲۰۱۱٫ صص ۳۱۶-۳۲۴٫ [ Google Scholar ]
- یوان، جی. ژنگ، ی. ژانگ، سی. زی، دبلیو. Xie، X. سان، جی. Huang, Y. T-drive: مسیرهای رانندگی بر اساس مسیرهای تاکسی. در مجموعه مقالات هجدهمین کنفرانس بین المللی SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، سن خوزه، کالیفرنیا، ایالات متحده آمریکا، ۲ تا ۵ نوامبر ۲۰۱۰٫ صص ۹۹-۱۰۸٫ [ Google Scholar ]
- هوانگ، ی. شیائو، ز. یو، ایکس. وانگ، دی. هاویاریمانا، وی. بای، جی. ساخت شبکه جاده با تقاطع های پیچیده بر اساس داده های مسیر خودروهای خصوصی نمونه برداری پراکنده. ACM Trans. بدانید. کشف کنید. داده ۲۰۱۹ ، ۱۳ ، ۳۵٫ [ Google Scholar ] [ CrossRef ]
بدون دیدگاه