OSMWatchman: آموزش نحوه تشخیص مشارکت خرابکارانه در OSM با استفاده از طبقه‌بندی جنگل تصادفی

خلاصه

اگرچه اطلاعات جغرافیایی داوطلبانه (VGI) دارای مزیت ارائه داده های فضایی باز رایگان است، اما مستعد خرابکاری است که ممکن است کیفیت این داده ها را به شدت کاهش دهد. بنابراین، تشخیص خرابکاری در VGI ممکن است اولین راه برای ارزیابی داده ها به منظور بهبود کیفیت آنها باشد. این مقاله توانایی رویکردهای یادگیری ماشینی تحت نظارت را برای شناسایی خرابکاری در OpenStreetMap (OSM) به روشی خودکار بررسی می‌کند. برای این منظور، کار ما شامل ساخت مجموعه ای از داده های خرابکاری است، با توجه به اینکه تاکنون هیچ مجموعه خرابکاری OSM در دسترس نیست. سپس، توانایی روش‌های تصادفی جنگل را برای تشخیص خرابکاری در پیکره ایجاد شده بررسی می‌کنیم.

کلید واژه ها:

وندالیسم ؛ OpenStreetMap ; اطلاعات جغرافیایی داوطلبانه یادگیری ماشینی تحت نظارت ؛ جنگل تصادفی ; کیفیت

۱٫ معرفی

در حال حاضر، اطلاعات نادرست به یک تهدید واقعی در دنیای دیجیتال، همچنین در پلتفرم‌های جمع‌سپاری تبدیل شده است. از این نظر، اطلاعات جغرافیایی داوطلبانه (VGI) در امان نمانده است زیرا مستعد خرابکاری نیز می باشد. معروف‌ترین نمونه‌های چنین خرابکاری شامل تغییر نام شهر نیویورک به Jewtropolis در OpenStreetMap (OSM) توسط یک مشارکت‌کننده واجد شرایط به‌عنوان یک «ضد یهود» در مطبوعات [۱]، اما خود به‌عنوان « هکر اخلاقی» اعلام شده است ( https: //www.reddit.com/r/openstreetmap/comments/9brqx4/this_is_medwedianpresident1_talking_what_i_did/ )، یا کارگران Google از هند در حال معکوس کردن خیابان های یک طرفه در OpenStreetMap (OSM) [ ۲ ] دستگیر شدند. اقدامات وندالیسم در OSM 0.2٪ از تغییرات در سال ۲۰۱۸ برآورد شد [ ۳]].

در VGI، کارتو وندالیسم تمام مشارکت‌های نقشه‌برداری را مشخص می‌کند که عمداً به منظور مخدوش کردن پایگاه داده فضایی مشترک بدون دلیل موجه انجام می‌شوند [ ۴ ، ۵ ، ۶ ]. با این حال، برای قابل استفاده مجدد و قابل اعتماد بودن، داده های فضایی جمع سپاری شده باید سطح خاصی از کیفیت را تضمین کند. بنابراین، با هدف ارائه حداقل سطح کیفیت VGI، یک راه حل ممکن می تواند تشخیص خودکار خرابکاری باشد. ابزارهای تشخیص خرابکاری برای شناسایی خرابکاری در پلتفرم های ویکی داده به روشی خودکار توسعه یافته اند [ ۷ ، ۸]]. با این حال، در مورد VGI، ابزار بسیار کمی برای رسیدگی دقیق به این موضوع ابداع شد. در واقع، تحقیقات کنونی قادر به تشخیص خودکار کارتو وندالیسم نیست [ ۵ ، ۹ ].

در نتیجه، این مقاله به بررسی این سوال می‌پردازد: تا چه حد می‌توان خرابکاری در VGI را با استفاده از روش‌های یادگیری ماشینی نظارت شده به‌طور خودکار شناسایی کرد؟

یکی از چالش های اصلی یادگیری ماشینی نظارت شده، تطبیق دامنه است که به عنوان یادگیری انتقالی نیز شناخته می شود [ ۱۰ ، ۱۱ ]. این موضوع به توانایی الگوریتم یادگیری برای طبقه بندی داده ها بدون توجه به منطقه جغرافیایی در نظر گرفته شده در مورد ما اشاره دارد. این همان چیزی است که [ ۱۲ ] آن را یادگیری انتقالی همگن می نامد.

بنابراین قصد داریم به سوالات زیر پاسخ دهیم:

چگونه می‌توانیم مجموعه‌ای را که موارد مختلف خرابکاری را در مناطق مختلف نقشه پوشش می‌دهد، بدست آوریم یا تولید کنیم؟
از چه ویژگی هایی می توانیم از OSM برای ساخت مجموعه داده های یادگیری استفاده کنیم؟
آیا طبقه‌بندی‌کننده‌ای که در بخشی از یک منطقه جغرافیایی خاص آموزش دیده است، می‌تواند به طور خودکار خرابکاری OSM را در سایر بخش‌های این منطقه خاص شناسایی کند؟
آیا همان طبقه بندی کننده می تواند خرابکاری OSM را در هر منطقه ای از جهان تشخیص دهد؟
اگر یک مجموعه داده یادگیری را در نظر بگیریم، با در نظر گرفتن چندین منطقه، آیا مدل ساخته شده بر روی آن بهتر است تا خرابکاری OSM را در هر منطقه ای از نقشه تشخیص دهد؟

ما ابتدا با طراحی مجموعه‌ای از خرابکاری بر روی داده‌های OpenStreetMap (OSM)، سپس با آزمایش با روش یادگیری نظارت‌شده، جنگل‌های تصادفی [۱۳ ] ، برای شناسایی خرابکاری در OSM در این تحقیق مشارکت می‌کنیم. تجزیه و تحلیل نتایج تجربی ما را به ارزیابی نقاط قوت و ضعف رویکرد به منظور شناسایی انواع خرابکاری در مناطق مختلف مورد علاقه هدایت می کند.

این مقاله به شرح زیر سازماندهی شده است. بخش ۲ کار مرتبط با خرابکاری VGI را مرور می کند. بخش ۳ ساخت بدنه خرابکاری ما را شرح می دهد. بخش ۴ روش شناسی کلی آزمایش های انجام شده را معرفی می کند. بخش ۵ طبقه‌بندی جنگل‌های تصادفی و نتایج به‌دست‌آمده با این طبقه‌بندی را ارائه می‌کند. بخش ۶ توانایی این تکنیک ها برای تشخیص خرابکاری در OSM را مورد بحث قرار می دهد. بخش ۷ مقاله را به پایان می‌رساند و بینش‌هایی را درباره کار آینده ارائه می‌کند.

۲٫ کارهای مرتبط

به منظور درک بهتر مکانیسم های خرابکاری در VGI و OSM، چند مطالعه بر موارد قبلی خرابکاری در OSM متمرکز شده است. به عنوان مثال، موارد بسیاری از خرابکاری ناشی از بازیکنان بازی Pokemon GO وجود داشت، و اکثر آنها توسط کاربران با تجربه OSM شناسایی و بازگردانده شدند [ ۹ ]. در این مطالعه، ویژگی های تخریب شده با استفاده از نظرات کاربران باتجربه هنگام بازگرداندن تغییرات جمع آوری شد. این مطالعه نشان می دهد که اکثر خرابکاران کاربران جوان هستند، زیرا خرابکاری چند ساعت پس از ثبت نام آنها در OSM رخ داده است. در مورد خرابکاری Pokemon GO، تنها ۱۶٫۵ درصد از ویژگی های خرابکارانه بیش از یک هفته در مجموعه داده باقی ماندند. اگر بخواهیم خرابکاری را به طور خودکار تشخیص دهیم، این دو نتیجه جالب هستند.

همچنین دو مطالعه از لیست کاربران ممنوع شده از OSM وجود دارد [ ۵ ، ۶ ]. حتی اگر ممنوعیت ها به ندرت به دلیل اقدامات خرابکارانه باشد، بلکه بیشتر به دلیل رفتار نادرست نسبت به جامعه مشارکت کنندگان OSM باشد، این فهرست ایده ای از تنوع موارد خرابکاری در OSM ارائه می دهد.

سپس، از آنجایی که بخش قابل توجهی از ویژگی‌های خراب شده در OSM می‌تواند برای مدت طولانی بدون تغییر باقی بماند، محققان تشخیص خودکار این خرابکاری را بررسی کردند. تحقیقات اخیر پتانسیل تکنیک‌های بدون نظارت را برای تشخیص خرابکاری در OpenStreetMap، به ویژه با استفاده از الگوریتم‌های تشخیص پرت مبتنی بر خوشه‌بندی [ ۵ ] بررسی کرده است. با این حال، خروجی این رویکرد به شدت به ویژگی های مجموعه داده متکی است. به عنوان مثال، بسیاری از ساختمان ها در فرانسه توسط قطعات نقشه برداری شده اند. در نتیجه، مجموعه داده های OSM از مناطق فرانسه حاوی ساختمان های کوچک و با شکل عجیب و غریب هستند ( شکل ۱). در نتیجه، خرابکاری این مجموعه داده‌ها با نقشه‌برداری از ساختمان‌های خیالی کوچک احتمالاً طبق یک الگوریتم تشخیص نقاط دورافتاده مورد توجه قرار نمی‌گیرد، زیرا داده‌های خراب شده با توجه به بقیه مجموعه داده‌ها به عنوان پرت دیده نمی‌شوند. این مشکل اصلی تشخیص خرابکاری با استفاده از الگوریتم‌های تشخیص پرت را برجسته می‌کند، به این معنا که داده‌های خرابکاری که در مجموعه ناهنجاری قرار نمی‌گیرند، قابل شناسایی نیستند. بنابراین، نتایج این روش به اندازه کافی رضایت بخش نیست تا امکان تشخیص کاملا خودکار خرابکاری در داده های OSM را فراهم کند.

در [ ۱۴ ]، یک سیستم یادگیری تحت نظارت، به نام OSMPatrol، برای تشخیص خطاها در OSM به لطف یک روش مبتنی بر قانون پیشنهاد شد. با این حال، این ابزار نه تنها خرابکاری – یعنی خطاهای عمدی – بلکه اشتباهات غیرعمدی را نیز تشخیص می دهد. بنابراین، بررسی پتانسیل روش‌های یادگیری تحت نظارت برای تشخیص خرابکاری در OSM هنوز یک دستور کار تحقیقاتی است. با این وجود، رویکردهای یادگیری تحت نظارت مستلزم داشتن مجموعه ای از داده های برچسب گذاری شده در دسترس است. در این رابطه، در حالی که مجموعه داده های خرابکاری برای پایگاه های دانشی مانند ویکی داده [ ۱۵ ، ۱۶ ] وجود دارد، تا آنجا که ما می دانیم، چنین مجموعه داده ای در VGI وجود ندارد.

در مورد انتخاب الگوریتم یادگیری، کار در [ ۸ ] بیان کرد که جنگل تصادفی مناسب ترین روش برای تشخیص خرابکاری در ویکی داده است. بنابراین، اجرای آزمایش‌ها با استفاده از جنگل تصادفی منسجم به نظر می‌رسد تا مشخص شود آیا این روش برای تشخیص خرابکاری در OSM به خوبی برای خرابکاری در ویکی داده عمل می‌کند یا خیر. در یادداشت دیگری، کار اخیر استفاده از یادگیری عمیق را برای ارزیابی کیفیت خود داده‌های VGI [ ۱۷ ] و حتی برای افزایش آنها آغاز کرده است [ ۱۰ ]. از آنجایی که تشخیص خرابکاری در VGI نوعی ارزیابی کیفیت است، کاربردهای یادگیری ماشین در ارزیابی کیفیت OSM برای مطالعه جالب است.

۳٫ مجموعه ای از خرابکاری در OpenStreetMap

برای آموزش یک مدل یادگیری ماشین برای شناسایی مشارکت های خراب شده در OSM، مجموعه ای از مشارکت های خرابکارانه ضروری است. ما در بخش اول مدلی را برای چنین پیکره ای پیشنهاد می کنیم و سپس در بخش های فرعی زیر توضیح می دهیم که چگونه این پیکره را با وندالیسم مصنوعی نمونه سازی کردیم.

۳٫۱٫ مدل بدنه

آنچه ما از مطالعات در مورد خرابکاری های گذشته در OSM آموختیم این است که توصیف یک ویژگی نقشه واحد به عنوان خرابکاری، بدون زمینه نقشه و تاریخچه نسخه ها در منطقه، بسیار پیچیده است. به طور کلی تر، اذعان می شود که با بافت جغرافیایی مشارکت VGI، روابط فضایی آن با سایر ویژگی های جغرافیایی اغلب برای ارزیابی کیفیت مشارکت ضروری است [ ۱۸ ، ۱۹ ]. در نتیجه، ما پیشنهاد می‌کنیم مجموعه وندالیسم خود را به عنوان مجموعه‌ای از عکس‌های فوری مکانی-زمانی OSM که شامل یک یا چند ویژگی خراب‌شده و بسیاری از ویژگی‌های غیر تخریب‌شده دیگر است، مدل کنیم (شکل ۲) .). عکس لحظه‌ای مکانی-زمانی عصاره‌ای از OSM با گستردگی مکانی محدود و تاریخ فوری است: این عصاره از تمام ویژگی‌های نقشه تشکیل شده است که درون پاکت عکس فوری قرار دارند و ما از آخرین نسخه این ویژگی‌ها استفاده می‌کنیم که جلوتر از تاریخ عکس فوری

سپس، در داخل هر عکس فوری، یک سهم یا خراب می شود یا خیر. ما بسیاری از ویژگی‌های مختلف مشارکت را در عکس فوری ذخیره می‌کنیم (هندسه، برچسب‌ها، نسخه‌های قبلی، اطلاعات مربوط به مشارکت‌کننده، ویرایش فراداده جلسه) به منظور محاسبه بیشتر توصیف‌گرها برای مدل‌های یادگیری ماشین. به عنوان مثال، هندسه ویژگی اندازه گیری اعتبار هندسی را امکان پذیر می کند، در حالی که “تعداد هفته ها” مشارکت کننده به محاسبه سن مشارکت کننده در OSM کمک می کند [ ۹ ].

۳٫۲٫ خط لوله ساختمان کورپوس

تاکنون، شناسایی خرابکاری در اطلاعات جغرافیایی داوطلبانه با استفاده از یادگیری ماشینی نظارت شده غیرممکن بوده است، زیرا هیچ مجموعه ای از داده های خرابکاری وجود نداشته است. بنابراین، اولین گام شامل طراحی چنین مجموعه ای از داده ها است.

علاوه بر این، یک پیکره خرابکاری با کیفیت خوب بسیار مهم است تا مدل را قادر سازد تا به درستی یاد بگیرد که خرابکاری چیست و بنابراین، بتواند آن را تشخیص دهد.

از آنجایی که داده های نقشه برداری ممکن است از یک منطقه جغرافیایی به منطقه دیگر متفاوت باشد و از آنجایی که سوال پژوهشی ما بر شناسایی خرابکاری در یک منطقه خاص متمرکز نیست، باید مناطق مطالعاتی مختلفی را در نظر بگیریم. اجازه دهید Ωمجموعه ای از مناطق مورد مطالعه باشد، به عنوان مثال، مجموعه ای از مناطق جغرافیایی مختلف که در آن تلاش خواهیم کرد تا خرابکاری های احتمالی را شناسایی کنیم.

اجازه دهید Oاسمایکس، ایکس∈Ω، مجموعه داده OSM استخراج شده از ناحیه مربوطه باشد. مجموعه حاوی داده‌های OSM است که به‌عنوان خرابکاری و غیر وندالیسم برچسب‌گذاری شده‌اند. از آنجایی که خرابکاری معمولاً در OSM اتفاق نمی‌افتد، ما فرض می‌کنیم که مجموعه داده‌های OSM برای همه مناطق حاوی مشارکت‌های خرابکاری قبلی نیستند.

بنابراین، ما به‌صورت دستی داده‌های تخریب‌شده OSM جعلی را به مجموعه اضافه می‌کنیم. برای هر ایکس∈Ω، اجازه دهید Vایکسمجموعه ای از داده های خرابکاری شده باشد که به طور مصنوعی روی x ساخته شده اند . نشان می دهیم دایکس، پایگاه داده ای که در آن Oاسمایکسو Vایکسذخیره می شوند.

خط لوله کلی برای ساخت بدنه شامل چهار مرحله است: انتخاب مناطق مورد مطالعه، واردات، اضافه کردن موارد خرابکاری که ایجاد کردیم، و گنجاندن در یک پایگاه داده. در زمینه OSM، هر منطقه مطالعه با یک عکس فوری خاص مطابقت دارد. این خط لوله در شکل ۳ برای این مورد نشان داده شده استΩشامل چهار منطقه مختلف ( آ،ب،سی،D).

۳٫۳٫ عکس های فوری انتخاب شده

برای اینکه تنوع خرابکاری در OSM را در چند عکس فوری بهتر به تصویر بکشیم، تصمیم گرفتیم عکس‌های فوری با خرابکاری جعلی ایجاد کنیم، یعنی عکس‌های فوری OSM را بدون هیچ گونه خرابکاری در نسخه‌های فعلی مشارکت‌ها استخراج کنیم و سپس خودمان با تقلید از داده‌ها خرابکاری کنیم. خرابکارانی که در ادبیات شناسایی شده اند.

چهار عکس فوری در مجموعه آزمایش های ارائه شده در این مقاله گنجانده شده است. گستره فضایی این چهار عکس فوری عبارتند از ( A ) Aubervilliers، ( B ) Stuhr، ( C ) Lannilis، و ( D ) Heilsbronn که در فرانسه ( مناطق A و C ) یا آلمان ( مناطق B و D ) واقع شده‌اند. شکل ۴نمای هوایی هر منطقه را به تصویر می کشد. این چهار عکس فوری به این دلیل انتخاب شدند که مناظر شهری و روستایی را در دو کشور مختلف پوشش می‌دهند که ساختمان‌ها به طور متفاوتی ثبت شده‌اند. ما همچنین مطمئن شدیم که هر چهار عکس فوری عمدتاً حاوی داده‌های باکیفیت از نظر دقت و کامل بودن مکانی هستند. در نهایت با بازرسی بصری بررسی کردیم که در این چهار عکس ساختمانی خراب نشده است.

اولین، Oاسمایکس، ایکس∈{آ،ب،سی،D}، با دانلود داده های OSM از این مناطق به عنوان فایل های تاریخی از Geofabrik، یک سرور دانلود رایگان، نمونه سازی می شوند. سپس، این فایل ها به پایگاه های مختلف PostGIS وارد می شوند دایکس، ایکس∈{آ،ب،سی،D}، به لطف یک اسکریپت پایتون سفارشی بر اساس کتابخانه Osmium. تاریخ عکس فوری برای هر چهار عکس فوری ۱۴ فوریه ۲۰۱۸ است.

۳٫۴٫ خرابکاری مجموعه داده

از آنجایی که اکثر مشارکت کنندگان OSM برای ردیابی عناصر OSM به لایه تصویر هوایی Bing تکیه می کنند، ما می خواستیم از این حالت عملیاتی برای ایجاد خرابکاری مصنوعی تقلید کنیم. برای انجام این کار، از QGIS برای نمایش یک پایگاه نقشه هوایی Bing و لایه داده برداری OSM استفاده کردیم تا بتوانیم ببینیم چه اشیایی قبلاً در OSM نگاشت شده اند.

تولید وندالیسم مصنوعی (یعنی نمونه سازی Vایکس، ایکس∈{آ،ب،سی،D}) شامل ایجاد ساختمان‌های جدید با فیلد isVandalism از شکل ۲ تنظیم شده به true یا با اصلاح ساختمان‌های موجود لایه ساختمان OSM (در این عکس‌های فوری فقط ساختمان‌ها تخریب شدند).

با توجه به نوع شناسی کارتو وندالیسم پیشنهاد شده توسط [ ۴ ]، ما عمدتاً در هر منطقه مورد مطالعه، بازی، فانتزی، هنری و کارتو وندالیسم صنعتی را مرتکب شدیم. در مجموعه داده ساخته شده، خرابکاری بازی با ساختمان‌های بزرگ نشان داده می‌شود که ممکن است با ساختمان‌های OSM موجود همپوشانی داشته باشند.

وندالیسم فانتزی با ساختمان های خیالی که در فضاهای خالی ترسیم شده اند نشان داده می شود. این ویژگی ها شبیه ساختمان های واقعی هستند، با این تفاوت که در واقعیت وجود ندارند. وندالیسم هنری مربوط به ساختمان های عجیب و غریب است. این ساختمان ها از همان اصولی پیروی می کنند که مورد معروف خرابکاری گرافیتی [ ۱۴ ].

خرابکاری صنعتی مربوط به ساختمان‌های تجاری یا صنعتی موجود است که ارزش برچسب «نام» آنها به مقادیر ویژه‌ای مانند «…» یا شکلک‌هایی مانند «:)» تغییر می‌کند. این تقلید می کند که چگونه رقبا یا مشتریان عصبانی ویژگی های تجاری یا صنعتی OSM را در گذشته خراب کرده اند.

مطالعه موارد خرابکاری گذشته الگوهای مشارکت را نشان داد و رفتار مشارکت‌کننده در پلتفرم OSM برای شناسایی این موارد کلیدی بود [ ۵ ، ۶ ، ۹ ]، بنابراین ما برخی از اطلاعات مشارکت‌کننده را در مجموعه خود گنجاندیم و تصمیم گرفتیم کاربران جعلی را اضافه کنیم. به عنوان دست اندرکاران وندالیسم ساختگی. مشارکت کنندگان را می توان با سن آنها در پروژه [ ۹ ، ۲۰ ]، تعداد مشارکت های گذشته آنها [ ۱۴ ، ۲۱ ]، یا با تعامل آنها با سایر کاربران OSM [ ۲۲ ، ۲۳] مشخص کرد.]. این معیارها را می توان برای مشارکت کنندگان موجود محاسبه کرد، اما برای مشارکت کنندگان جعلی، آنهایی که بر اساس تجزیه و تحلیل تعاملات با سایر کاربران هستند، شبیه سازی بسیار پیچیده هستند. بنابراین، به‌جای ایجاد نمودارهای جعلی از تعاملات گذشته برای کاربران جعلی، نمایه‌های جعلی اندازه‌گیری ایجاد کردیم، به عنوان مثال، نسبت مشارکت‌های گذشته که توسط سایر کاربران حذف شده‌اند. این پروفایل ها از تجزیه و تحلیل اقدامات برای کاربران واقعی OSM [ ۲۳ ] ناشی می شوند. همانطور که مطالعات گذشته در مورد خرابکاری نشان می دهد که خرابکاران به ندرت خود را به یک ویژگی تخریب شده محدود می کنند [ ۹]، اکثر خرابکاران جعلی ما با چندین ویژگی تخریب شده ما مرتبط بودند. برخی از مشارکت‌کنندگان جعلی فقط در خرابکاری نقش داشته‌اند، بنابراین شناسایی خودکار آن‌ها باید آسان‌تر باشد، و به دیگران تعداد مشارکت‌هایی بیشتر از تعداد مشارکت‌های خرابکارانه داده شده است. شناسایی مشارکت‌های مرتبط با این آخرین مشارکت‌کنندگان جعلی باید به‌طور خودکار به‌عنوان خرابکاری دشوارتر باشد.

شکل ۵ نمونه هایی از ساختمان های تخریب شده جعلی را نشان می دهد. جدول ۱ تعداد ساختمان های OSM و ساختمان های خراب شده را خلاصه می کند. برای هر منطقه مورد مطالعه، عناصر تخریب شده معرفی شده همیشه نشان دهنده بخش کوچکی در برابر تعداد ساختمان ها هستند |Oاسمایکس|، ایکس∈{آ،ب،سی،D}(کمتر از ۱%). این روشی برای واقع بینانه بودن در ساخت ساختمان های تخریب شده مصنوعی است، زیرا خرابکاری معمولاً در همه جا روی داده های OSM اتفاق نمی افتد در حالی که نمونه های کافی برای آموزش یک مدل یادگیری ماشین ارائه می شود.

۴٫ روش برای استفاده از یادگیری ماشین برای تشخیص خرابکاری

۴٫۱٫ اصول اصلی

ایده اصلی این مقاله در نظر گرفتن این است که خرابکاری را می توان با استفاده از یک روش طبقه بندی، مانند جنگل تصادفی، که نتایج خوبی در مورد خرابکاری ویکی پدیا به دست آورد، شناسایی کرد.

همانطور که ما یک مجموعه حاوی خرابکاری در چهار منطقه ایجاد کردیم، در نظر گرفتیم که از دو مورد از آنها سه مدل یاد بگیریم ( دآو دب): الگویی در هر منطقه و الگویی برای اتحاد آنها. ما این مدل‌ها را در چهار ناحیه مختلف آزمایش کردیم تا بررسی کنیم: (i) آیا مدل می‌تواند خرابکاری را در ناحیه ورودی خود تشخیص دهد. (ii) توانایی مدل برای قابل انتقال به هر منطقه از نقشه. مدل سوم – یعنی مدلی که بر اساس اتحاد مجموعه داده های خراب شده ساخته شده است دآو دب-به ما امکان می دهد سهم تنوع در مجموعه داده را در تشخیص خرابکاری OSM مطالعه کنیم.

روشی که ما پیشنهاد می کنیم به سه مرحله تقسیم می شود. اولین مرحله آماده سازی مجموعه داده های مختلف است. سپس، مرحله دوم آموزش طبقه بندی کننده ها است. مرحله سوم، ارزیابی طبقه‌بندی‌کننده‌های آموزش‌دیده در سناریوهای مختلف مربوط به سوالات مختلف ما است.

۴٫۲٫ ساخت مجموعه داده های یادگیری

پیش پردازش داده یک مرحله مهم در پروتکل آزمایشی است زیرا شامل تبدیل داده ها به نمایش دیگری است که به عنوان ورودی به الگوریتم یادگیری داده می شود. این نمایش جدید روشی است که الگوریتم داده ها را می بیند.

از آنجایی که پیکربندی الگوریتم های یادگیری ماشین ممکن است از یکدیگر متفاوت باشد، مرحله پیش پردازش داده نیز باید با الگوریتم انتخاب شده تطبیق داده شود. به عنوان مثال، جنگل تصادفی مجموعه‌ای از ویژگی‌هایی را که داده‌ها را مشخص می‌کنند به عنوان ورودی می‌گیرد، در حالی که یک شبکه عصبی کانولوشنال روی مجموعه‌ای از تصاویر عملکرد بهتری دارد. بنابراین، مرحله آماده‌سازی داده‌ها باید با یادگیری ماشینی انتخاب شده تطبیق داده شود. در مورد ما، این در بخش ۳ ارائه شده است .

هنگامی که مجموعه داده ای که برای یادگیری ماشین استفاده می شود ساخته شد، نشان می دهیم پایکسبه عنوان مجموعه داده پردازش شده از دایکس( شکل ۶ ).

۴٫۳٫ آموزش Classifier

در نظر می گیریم Ωبه عنوان مجموعه ای از چهار منطقه مختلف {آ،ب،سی،D}. همانطور که توانایی مدل را برای تشخیص خرابکاری در مکان های مختلف بررسی می کنیم، سه مدل بر روی مجموعه داده های مختلف آموزش داده می شوند: دآمجموعه داده، دبمجموعه داده، و یک مجموعه داده گروه بندی دآو دبمجموعه داده ها استفاده از آن مجموعه‌ها به ارزیابی امکان پاسخگویی به سؤالات مختلف ما مربوط به توانایی رویکرد ما برای تشخیص خرابکاری در ناحیه‌ای که داده‌ها از آن آموخته می‌شود و همچنین تعمیم تشخیص به مناطق مختلف اجازه می‌دهد.

داده های پردازش شده به مجموعه داده های آموزشی و آزمایشی تقسیم می شوند:

پایکس=پایکستیrآمنn∪پایکستیهستی

جایی که پایکستیrآمنnمجموعه آموزشی از ناحیه x و استپایکستیهستیمجموعه تست مجموعه تست باید حاوی داده هایی باشد که طبقه بندی کننده در مرحله آموزش با آنها مواجه نشده است. از این رو:

پایکستیrآمنn∩پایکستیهستی=∅

اجازه دهید سیایکسیک طبقه بندی آموزش دیده در پایکستیrآمنn. ما سه طبقه بندی می سازیم سیآ، سیب، و سیآ+ب، جایی که سیآ+بطبقه بندی کننده ای است که در مناطق A و B آموزش داده شده است ( شکل ۷ ).

۴٫۴٫ ارزیابی سناریوها

شکل ۸ نشان می دهد که چگونه سناریوهای مختلف بر روی مجموعه داده های مختلف مورد استفاده ما آزمایش خواهند شد. سناریوها مطابق با سؤالات تحقیق ما تعریف می شوند.

ابتدا، می‌خواهیم توانایی طبقه‌بندی‌کننده‌ها را در تشخیص خرابکاری در همان ناحیه مورد استفاده در مرحله آموزش بررسی کنیم.

دوم، به منظور ارزیابی توانایی انطباق دامنه طبقه‌بندی‌کننده‌ها، نتایج پیش‌بینی‌های آنها را در حوزه‌های مختلف از پیش‌بینی مورد استفاده در طول آموزش مشاهده می‌کنیم.

در نهایت، مقایسه بین پیش‌بینی‌های طبقه‌بندی‌کننده‌ها منجر به بررسی این موضوع می‌شود که آیا طبقه‌بندی‌کننده زمانی که در مناطق جغرافیایی مختلف آموزش داده می‌شود، «قابلیت تطبیق‌پذیری دامنه» دارد یا خیر.

به منظور ارزیابی و مقایسه سناریوهای مختلف و مطالعات موردی، می توان چندین معیار را در نظر گرفت.

۴٫۵٫ معیارهای ارزیابی

معیارهای مورد استفاده برای ارزیابی طبقه‌بندی‌کننده‌های مختلف، نرخ مثبت واقعی (همچنین به عنوان فراخوان یا نرخ ضربه شناخته می‌شود) و نرخ منفی واقعی هستند. این نرخ‌ها در پایان یک پیش‌بینی محاسبه می‌شوند تا عملکرد یک طبقه‌بندی کننده را کمی کنند. نرخ مثبت واقعی ( TPR ) بخشی از پیش بینی های خوب را در بین اشیایی که واقعاً خرابکاری هستند اندازه گیری می کند. نرخ منفی واقعی ( TNR ) بخشی از پیش‌بینی‌های خوب مثبت‌های واقعی (TPs) را اندازه‌گیری می‌کند – در میان مشارکت‌های واقعاً غیر وندالیسم. انتظار می‌رود مدلی که در تشخیص وندالیسم OSM به‌طور خودکار عملکرد خوبی داشته باشد، در مرحله پیش‌بینی آزمایش ، TPR و TNR بالایی داشته باشد.

تیپآر=تیپتیپ+افن

که در آن مثبت‌های واقعی (TPs) داده‌های خرابکاری شده‌ای هستند که توسط طبقه‌بندی‌کننده شناسایی می‌شوند و منفی‌های کاذب (FNs) داده‌های تخریب‌شده کشف‌نشده هستند، و

تینآر=تینتین+افپ

که در آن منفی های واقعی (TN) داده های OSM هستند که به درستی به عنوان غیر وندالیسم طبقه بندی می شوند.

۵٫ OSMWatchman: طبقه بندی جنگل تصادفی برای تشخیص خرابکاری

رویکرد جنگل تصادفی در سطح شی کار می کند، به این معنا که الگوریتم به طور مستقیم بر روی ساخت اشیاء توصیف شده توسط مجموعه ای از ویژگی ها یاد می گیرد.

۵٫۱٫ ویژگی های تشخیص خرابکاری

آماده‌سازی داده‌ها شامل توسعه ویژگی‌های مربوطه است که ساختمان‌های تخریب‌شده OSM را به‌درستی از ساختمان‌های معمولی متمایز می‌کند. کار در [ ۸ ] ویژگی های محتوا و زمینه را به عنوان معیارهای مهمی که خرابکاری را در پایگاه های دانش به خوبی مشخص می کند، برجسته کرد. ویژگی‌های محتوا بر محتوای خود اطلاعات ارائه‌شده تمرکز می‌کنند، در حالی که ویژگی‌های زمینه معیارهایی را بر روی کاربر مشارکت، سابقه مشارکت و ارتباط با سایر مشارکت‌های پایگاه دانش ارائه می‌دهند. در بخش‌های فرعی زیر، ویژگی‌های محتوا و زمینه پیشنهاد و تشریح می‌شود.

۵٫۱٫۱٫ ویژگی های محتوا

در مورد داده های OSM، محتوای مشارکت را می توان در سطح هندسی و سطح معنایی مشاهده کرد. در سطح هندسی، برخی از ویژگی ها قبلاً در [ ۵ ] پیشنهاد شده بودند. آنها عمدتاً اندازه و شکل ساختمان های OSM را مشخص می کنند. بر اساس این ویژگی ها، ویژگی های هندسی زیر را در نظر می گیریم: محیط، کوتاه ترین طول لبه، طول میانی لبه، ازدیاد طول، تحدب، فشردگی. این ویژگی‌ها به این دلیل استفاده می‌شوند که بیشتر موارد خرابکاری هنری از مشارکت‌هایی با هندسه‌های غیرعادی ساخته شده‌اند. به عنوان مثال، ساختمان سمت چپ بالا در شکل ۵ دارای محیط بسیار بزرگ و فشردگی بسیار کم است، در حالی که ساختمان بالا سمت راست دارای محیط بسیار بزرگ و کوتاه ترین طول لبه است.

در سطح معنایی، داده‌های نقشه‌برداری OSM دارای برچسب‌هایی هستند که جفت‌های کلید-مقدار هستند که عناصر جغرافیایی را توصیف می‌کنند. نشان می دهیم n_تیآgس=|تی|به عنوان یک ویژگی که تعداد تگ های توصیف کننده یک عنصر OSM را شمارش می کند، که در آن T مجموعه ای از برچسب هایی است که یک عنصر OSM را توصیف می کند. اجازه دهید تیآgکهyمجموعه کلیدهای برچسب عنصر OSM و تیآgvآلتوهمجموعه مقادیر مربوطه بیشتر مشارکت‌های خرابکارانه OSM در جایی که یک شی ایجاد می‌شود، حاوی تعداد بسیار کمی از برچسب‌ها [ ۹ ] است، بنابراین این ویژگی باید مفید باشد.

تی={(ک،v)/ک∈تیآgکهy،v∈تیآgvآلتوه}

برای ثبت خرابکاری در برچسب‌های OSM، ویژگی‌ای را در نظر می‌گیریم که حداکثر نرخ کاراکترهای خاص را در یک مشارکت OSM تعیین می‌کند. این ویژگی از ویژگی های سطح کاراکتر پیشنهاد شده در [ ۸ ] الهام گرفته شده است. کمی کردن میزان کاراکترهای ویژه برای پوشش هر نوع خرابکاری که ممکن است در تگ های OSM اتفاق بیفتد کافی نیست، اما حداقل می تواند به شناسایی یک مورد خاص از خرابکاری کمک کند: به عنوان مثال، یکی از کاربران ممنوعه OSM تخلف خود را با علامت گذاری کرده است. صورتک ها به عنوان مقادیر برای نام تگ [ ۵ ]. این ویژگی شخصیت به صورت زیر تعریف می شود:

مترآایکس_سپهجمنآل_جساعتآr_rآتیمنo=حداکثرv∈تیآgvآلتوهn_سپهجمنآل_جساعتآrلهngتیساعت(v)

جایی که n_سپهجمنآل_جساعتآrتعداد کاراکترهای خاص در v و the استلهngتیساعتتابع اندازه کل v را می دهد .

۵٫۱٫۲٫ ویژگی های زمینه

از آنجایی که داده های OSM عناصر جغرافیایی هستند، از نظر فضایی با یکدیگر مرتبط هستند [ ۱۸ ]. علاوه بر این، از آنجایی که وندالیسم داستانی و هنری از عناصر نگاشت بر عناصر موجود تشکیل شده است، مهم است که ویژگی‌های توپولوژیکی را در نظر بگیریم که همپوشانی‌های بالقوه بین انواع مختلف داده‌های جغرافیایی را که معمولاً اتفاق نمی‌افتند، کمیت می‌دهند [۱۹ ] . نشان می دهیم بتومنلدمنngبه عنوان هندسه یک شی ساختمان OSM و Oاسمnآتیتوrآلبه عنوان مجموعه ای از اشیاء OSM که مطابق با عناصر جغرافیایی طبیعی است که در آن هیچ ساختمانی (آب، چمنزار، جنگل و غیره) نباید وجود داشته باشد. ما دو ویژگی توپولوژیکی را تعریف می کنیم:

n_منس_wمنتیساعتمنn_لتولج=|{nآتی∈Oاسمnآتیتوrآل/بتومنلدمنng⊆nآتی}|

n_منnتیهr_لتولج=|{nآتی∈Oاسمnآتیتوrآل/بتومنلدمنng∩nآتی≠∅}|

همانطور که قبلا ذکر شد، ویژگی های زمینه همچنین شامل کمی کردن تاریخچه مشارکت ها می شود [ ۸ ]. در مورد تاریخچه شی، یک ویژگی را در نظر می گیریم n_توسهrسکه تعداد مشارکت‌کنندگان منحصربه‌فردی را که روی شی در نسخه‌های مختلف آن کار کرده‌اند، محاسبه می‌کند، زیرا نحوه ویرایش یک شی بر کیفیت آن تأثیر می‌گذارد [ ۲۴ ]. تیمنمترهسپآn_تیo_پrهvمنoتوسمدت زمان بین نسخه فعلی مشارکت OSM و نسخه قبلی آن را بر حسب ثانیه تعیین می کند. از آنجایی که تحقیقات گذشته نشان داد که مشارکت‌های تخریب شده معمولاً زیاد دوام نمی‌آورند [ ۹ ]، یک ویژگی نیز وجود دارد، مشارکت_سن ، که سن مشارکت را با مدت زمان بین آخرین نسخه مشارکت OSM و تاریخ آن بر حسب ثانیه اندازه‌گیری می‌کند. عکس فوری

۵٫۱٫۳٫ ویژگی های کاربر

جامعه OSM معتقد است که تشخیص خرابکاری باید بر روی ویژگی های تغییرات و ویژگی های کاربر متمرکز شود ( https://wiki.openstreetmap.org/wiki/Vandalism#Detection ). در واقع، کیفیت VGI به شدت با کیفیت مشارکت کنندگان مرتبط است [ ۵ ، ۲۱ ، ۲۵ ]. بنابراین، تشخیص خرابکاری می‌تواند به عنوان بازیابی مشارکت‌های کاربرانی که به نحوی غیرقابل اعتماد در نظر گرفته می‌شوند یا از تحقیقات حذف مشارکت‌های قابل اعتماد [ ۸ ، ۲۶ ] تلقی شود.

کمی کردن میزان اعتماد مشارکت کنندگان یک موضوع تحقیقاتی است که با برآورد شهرت [ ۲۶ ، ۲۷ ، ۲۸ ]، رفتار مشارکتی آنها [ ۲۹ ، ۳۰ ] یا تخصص آنها [ ۲۰ ، ۳۱ ، به روش های متعددی در ادبیات به آن پرداخته شده است. ۳۲ ]. طبق [ ۱۴ ]، خرابکاری به شدت با مشخصات مشارکت کننده مرتبط است، اما می تواند توسط کاربران جدید و همچنین مشارکت کنندگان با تجربه انجام شود. علاوه بر این، داده‌های با کیفیت خوب ارائه‌شده توسط کاربران بی‌تجربه باید به‌عنوان ارزش واقعی آن‌ها شناخته شود تا از کیفیت کار انجام‌شده در پلت‌فرم‌های جمع‌سپاری اطمینان حاصل شود [ ۳۳]].

بنابراین، ما رفتار مشارکت کاربران در پلتفرم را از طریق ویژگی های مختلف کاربر در نظر می گیریم:

تیoتیآل_جonتیrمنبتوتیمنonس: تعداد کل مشارکت‌های کاربر. با جمع کردن تعداد مشارکت‌ها در مجموعه‌های تغییرات ایجاد شده در منطقه مورد مطالعه، که شامل ویرایش حداقل یک ساختمان OSM است، به دست می‌آید.
پ_مترoدمنfمنجآتیمنon: بخشی از مشارکت های کاربر که تغییرات داده است.
پ_دهلهتیه: بخشی از مشارکت های کاربر که سرکوب داده ها هستند.
پ_منس_توسهد: بخشی از مشارکت های کاربر که توسط سایر مشارکت کنندگان مجددا استفاده می شود [ ۲۹ ].
پ_منس_هدمنتیهد: بخشی از مشارکت های کاربر که پس از آن توسط سایر مشارکت کنندگان اصلاح شد.
پ_منس_دهلهتیهد: بخشی از مشارکت های کاربر که پس از آن توسط سایر مشارکت کنندگان حذف شد.
nبدبلیوههکس: تعداد هفته هایی که در طی آن یک مشارکت کننده پایگاه داده OSM را ویرایش کرده است. این مربوط به سن کاربر است که در مورد خرابکاری Pokemon GO بسیار مهم است [ ۹ ].
foجآلمنسآتیمنon: این ویژگی هندسه ناحیه ای را که مشارکت کننده ویرایش های خود را روی آن انجام داده است در مقایسه با هندسه منطقه مورد مطالعه ارزیابی می کند. مقدار آن بین صفر تا یک است. زمانی که منطقه مشارکت گسترده تر از منطقه مورد مطالعه است، به سمت صفر و زمانی که منطقه مشارکت عمدتاً در داخل منطقه مورد مطالعه باشد به سمت یک می رود. احتمال کمتری دارد که یک خرابکار به یک منطقه بزرگ کمک کند.

به منظور امتیاز دادن به اعتماد مشارکت کنندگان، ما را در نظر می گیریم آvgو wهمنgساعتتیهد_آvgبه ترتیب میانگین و میانگین وزنی ویژگی های کاربر. در حالت ایده آل، هر چه یک مشارکت کننده قابل اعتمادتر باشد، بالاتر است آvgو wهمنgساعتتیهد_آvgباید باشد. با این فرض که هرچه مشارکت های کاربر بیشتر ویرایش شود (مثلاً حذف شود)، کمتر قابل اعتماد به نظر می رسد، توجه داشته باشید که آvgو wهمنgساعتتیهد_آvgبه حساب آوردن ۱-پ_منس_هدمنتیهدو ۱-پ_منس_دهلهتیهد. جدول ۲ وزن های مورد استفاده را نشان می دهد wهمنgساعتتیهد_آvg.

با این حال، از آنجایی که ساختمان‌های تخریب‌شده مصنوعی زمینه‌ای در مورد تاریخچه و مشارکت‌کنندگان آنها در OSM ندارند، ما مجبور شدیم این اطلاعات را ایجاد کنیم. بنابراین، تمام ساختمان های خراب شده دارای نسخه شماره ۱ هستند. در مورد ویژگی های کاربر، ابتدا پروفایل های کاربری جعلی با دادن مقادیر دلخواه به این ویژگی ها ساخته شد. سپس، پس از تجزیه و تحلیل توزیع ویژگی‌های کاربر واقعی، می‌توانیم مقادیر کم را به ویژگی‌های کاربری پروفایل‌های جعلی اختصاص دهیم تا یک نمایه خرابکار ایجاد کنیم. به این ترتیب، امتیازهای ضعیف اعتماد با ساختمان‌های تخریب شده مرتبط می‌شود. با این حال، برای شبیه سازی این واقعیت که یک مشارکت کننده قابل اعتماد ممکن است OSM را خراب کند [ ۳۴ ]، به برخی از کاربران جعلی امتیازات بالاتری دادیم.

جدول ۳ ویژگی های انتخاب شده مورد استفاده برای توصیف داده های عکس فوری OSM را خلاصه می کند.

۵٫۲٫ طبقه بندی داده ها

جنگل تصادفی یک الگوریتم یادگیری نظارت شده است که با ساخت تصادفی درخت های تصمیم گیری چندگانه که بر روی زیرمجموعه های مختلف ویژگی های ورودی داده شده به عنوان ورودی به الگوریتم آموزش داده شده اند، عمل می کند. پیش بینی داده های نهایی با شمارش پیش بینی های انجام شده توسط هر درخت تصمیم [ ۳۵ ] ساخته می شود.

در این آزمایش‌ها، ما طبقه‌بندی‌کننده‌های تصادفی جنگل را در R با استفاده از بسته Caret ساختیم. هر طبقه‌بندی کننده با اعتبار دهی متقاطع که سه بار تکرار شد، آموزش دید. هشتاد درصد از پآ، پب، و پسیبرای آموزش طبقه بندی کننده ها استفاده شد، در حالی که ۲۰٪ باقی مانده برای مرحله آزمایش استفاده شد. جدول ۴ نتایج پیش بینی سه طبقه بندی کننده را نشان می دهد.

۵٫۳٫ نتایج

طبقه بندی کننده آموزش دیده در ساختمان Aubervilliers در پیش بینی خرابکاری در Aubervilliers بسیار خوب عمل می کند. با این حال، در Stuhr ضعیف عمل می کند. علاوه بر این، حتی در شناسایی ساختمان های تخریب شده در Lannilis (همان کشور، اما روستایی) و Heilsbronn (کشورهای مختلف و روستایی) ناکام است. به همین ترتیب، طبقه بندی کننده آموزش دیده در Stuhr موفق به شناسایی خرابکاری در همان منطقه می شود. با این حال، در سایر مناطق مطالعه ضعیف عمل می کند. مشاهدات مشابهی برای طبقه بندی کننده آموزش دیده در Aubervilliers و Stuhr انجام شده است.

از آنجایی که هیچ یک از این طبقه‌بندی‌کننده‌ها برای پیش‌بینی خرابکاری در یک منطقه ناشناخته بهتر از سایرین عمل نمی‌کنند، یک طبقه‌بندی جدید سیآ+ب*در Aubervilliers و Stuhr آموزش داده شد، اما بدون در نظر گرفتن هیچ ویژگی کاربر. جدول ۵ نتایج پیش بینی را برای سیآ+ب*. حتی اگر این طبقه‌بندی‌کننده همچنان در تشخیص خرابکاری در Aubervilliers و Stuhr موفق باشد (مقادیر TPR و TNR هنوز بالا هستند)، متوجه می‌شویم که TPR کمی کمتر از مقادیر TPR است که با سیآ+بدر همان مناطق، به این معنی که چند ساختمان تخریب شده دیگر شناسایی نشد. علاوه بر این، پیش بینی در Lannilis و Heilsbronn با سیآ+ب*مقادیر TNR کمی پایین‌تر ارائه می‌کند، به این معنی که برخی از ساختمان‌های تخریب نشده شناسایی شده‌اند. در واقع، با نگاه کردن به موارد مثبت کاذب شناسایی شده توسط سیآ+ب*، متوجه می شویم که آنها با عناصر نقشه برداری کوچکی مطابقت دارند که در واقع قطعاتی از ساختمان هستند ( شکل ۹ ). این عناصر احتمالاً داده هایی از کاداستر فرانسوی هستند که توسط یک مشارکت کننده قابل اعتماد به OSM وارد شده است. بنابراین، توضیح می دهد که چرا این داده ها توسط وندالیسم طبقه بندی نشده اند سیآ+ب، بر خلاف سیآ+ب*. بنابراین، ویژگی های کاربر برای تشخیص خرابکاری، به ویژه با کاهش تعداد موارد مثبت کاذب، مرتبط هستند.

۶٫ بحث

این بخش مزایا و معایب OSMWatchman ( مواد تکمیلی ) را مورد بحث قرار می دهد. کارایی بالای طبقه‌بندی‌کننده‌های تصادفی جنگل برای تشخیص خرابکاری در همان مناطقی که برای آموزش استفاده می‌شود، نشان می‌دهد که امکان شناسایی وندالیسم OSM به طور خودکار در مناطق آشنا وجود دارد. یک جنگل تصادفی آموزش‌دیده، ویژگی‌هایی را که برای پیش‌بینی داده‌ها مهم‌ترین هستند، رتبه‌بندی می‌کند، که می‌تواند به تعیین ویژگی‌هایی کمک کند که داده‌های خرابکاری OSM را به بهترین شکل توصیف می‌کنند.

با این حال، توسعه الگوریتم برای ویژگی های ورودی می تواند پرهزینه باشد و ویژگی های پیشنهادی دارای محدودیت های واضح هستند. برای نشان دادن این محدودیت‌ها، ما از مدل آموزش‌دیده در Aubervilliers برای شناسایی ساختمان‌های تخریب شده در شهر همسایه Pantin استفاده کردیم، که دارای جغرافیای مشابه است، اما خرابکاری ساختگی ندارد. برخی از ساختمان ها به اشتباه به دلیل خرابکاری طبقه بندی می شوند مترآایکس_سپهجمنآل_rآتیمنoقابلیتی که تعداد کاراکترهای خاص در تگ ها را می شمارد. در این موارد ( شکل ۱۰ )، یک برچسب حاوی URL یک وب سایت مربوط به ساختمان ها است، و این URL حاوی چندین نمونه از کاراکترهای خاص است. اما، این ساختمان ها به وضوح تخریب نشده اند. این نشان می دهد که ویژگی نحوی ساخته شده بر روی برچسب ها باید پیچیده تر باشد تا URL ها را به عنوان برچسب تحمل کند.

در همان مناطق، چندین ساختمان کوچک به اشتباه به عنوان خرابکاری طبقه بندی می شوند، زیرا در یک چندضلعی جنگلی قرار دارند ( شکل ۱۱ ). در واقع این مکان شامل چندین باغ شهری مشترک است و این ساختمان های کوچک کابین هایی هستند که در واقع زیر درختان قرار دارند. این مثال نشان می دهد که n_منس_wمنتیساعتمنn_لتولجو n_منnتیهr_لتولجویژگی ها باید اصلاح شوند، زیرا در برخی موارد، وجود ساختمان های کوچک در داخل مناطق کوچک درختی غیرممکن نیست.

علاوه بر این، وندالیسم های مصنوعی که ویژگی های زمینه ای ندارند، باید مقادیر دلخواه خود را تعیین کنند. نمونه‌های عمدی بسیار کمی از داده‌های خرابکاری در مورد تعداد ساختمان‌های OSM وجود داشت، زیرا خرابکاری در OSM کاملاً غیرعادی است (اگرچه خطر وجود دارد). از آنجایی که مجموعه داده بسیار نامتعادل است، هیچ راهی برای افزایش داده وجود ندارد. راه حل این است که به صورت دستی اشیاء تخریب شده بیشتری در مجموعه خرابکاری تولید کنید. علاوه بر این، حتی در مواردی که به نظر می رسد OSM تخریب شده است، پیچیده است که مطمئن شوید این خرابکاری است و نه فقط اشتباهات صادقانه. سهم نشان داده شده در شکل ۱۲در منطقه Aubervilliers ظاهر شد و توسط طبقه بندی کننده های ما به عنوان وندالیسم در نظر گرفته نشد. واضح است که هیچ ساختمانی در این شهرک بین دو بلوک آپارتمانی بزرگ وجود ندارد. نامی که به این ساختمان داده شده است را می توان به “آسمان آزاد – پشت بام پارکینگ” ترجمه کرد. به نظر می رسد که این یک روش بومی برای نامیدن شهرک است که احتمالاً توسط ساکنان بلوک های آپارتمانی استفاده می شود. علاوه بر این مشارکت، همان کاربر به چندین ویژگی نقشه دیگر در همان منطقه کمک کرده است و به نظر می‌رسد که مشارکت‌های خوبی باشند. در این مورد، ما استدلال می کنیم که هر دو طبقه بندی احتمالی (وندالیسم یا خطا) قابل قبول هستند.

در نهایت، جنگل تصادفی کارایی خود را در پیش‌بینی خرابکاری در مناطق ناآشنا OSM ثابت نکرد، زیرا اتفاقاً ویژگی‌ها از یک منطقه به منطقه دیگر بسیار متفاوت بودند. این پدیده را می توان به عنوان نوعی رانش مفهومی دید، نه به دلیل یک تکامل زمانی مانند [ ۳۶ ]، بلکه به دلیل یک تکامل مکانی. به عنوان مثال، ساختمان ها می توانند در مناطق بسیار شهری یا بسیار روستایی شکل های متفاوتی داشته باشند و بافت جغرافیایی نیز به شدت تغییر می کند، بنابراین تمام ویژگی های مربوط به شکل و روابط فضایی می توانند توزیع هایی داشته باشند که با منظر جغرافیایی متفاوت است (شکل ۹) .). حتی ویژگی‌های مربوط به کاربران و تاریخچه می‌تواند در مناطق شهری با کاربران و ویرایش‌های زیاد و مناطق روستایی با اغلب تعداد کمی از کاربران برای ویرایش کل منطقه بسیار متفاوت باشد. همچنین به دلیل در دسترس بودن مجموعه داده های منبع، مانند داده های کاداستر در فرانسه برای ساختمان ها، تفاوت هایی بین کشورها وجود دارد. ما سه راه حل ممکن برای غلبه بر این مشکل تطبیق دامنه را می بینیم:

تعریف ویژگی های جدید یا نرمال شده که حساسیت کمتری نسبت به تغییرات چشم اندازها و منابع داده دارند.
از یادگیری انتقال برای تنظیم دقیق یک مدل آموزش‌دیده برای مناظر خاص استفاده کنید، شاید فقط با مشارکت‌های غیر تخریبی، که حاشیه‌نویسی بسیار آسان‌تر است.
نسخه های مختلف OSMWatchman را آموزش دهید، که هر کدام برای برخی از انواع مناظر تخصصی هستند.

۷٫ نتیجه گیری و کار آینده

این مطالعه پتانسیل روش‌های یادگیری تحت نظارت را برای تشخیص خرابکاری OSM مورد بررسی قرار داد. یک مدل تصادفی مبتنی بر جنگل، OSMWatchman، پیشنهاد و آزمایش شد، که نتایج متفاوتی به همراه داشت: در حالی که OSMWatchman قادر است به طور خودکار خرابکاری را در مناطق آشنای OSM تشخیص دهد، این مدل از نظر تطبیق دامنه هنوز به اندازه کافی موفق نیست.

تحقیقات ما چشم اندازهای زیادی را باز می کند. اولین مورد شامل بهبود عملکرد OSMWatchman است. برای درک بهتر محدودیت‌های انطباق دامنه، می‌تواند جالب باشد که پیش‌بینی خرابکاری را در مناطقی که به مناطقی که برای آموزش استفاده می‌شوند نزدیک‌تر هستند، مانند مناطق یا مناطق همسایه که دارای مناظر جغرافیایی یکسان هستند، جالب باشد. بنابراین، این به تعیین اینکه آیا جنگل تصادفی حداقل در مناطق ناشناخته نزدیک به مناطق آموزشی قابل انطباق با دامنه نیست، کمک خواهد کرد. در این مورد، مطالعه بر روی شباهت مناطق OSM ممکن است به ارزیابی بهتر توانایی یادگیری انتقال روش در نظر گرفته شده در اینجا کمک کند. این نیاز به واجد شرایط بودن داده های OSM در سطح منطقه ای دارد [ ۱۲]. همچنین در بحث قبلی دیدیم که برخی از ویژگی‌های مورد استفاده در OSMWatchman دارای محدودیت‌هایی هستند، زیرا می‌توانند باعث پیش‌بینی‌های مثبت کاذب شوند. ویژگی های بهبود یافته باید به بهبود نتایج تشخیص کمک کند، حتی در هنگام انتقال مدل به مناطق ناشناخته.

راه دیگر برای بهبود OSMWatchman آموزش آن با اشیاء نقشه های متنوع تر از ساختمان ها است. تعدادی از ویژگی ها مختص ساختمان ها هستند (به عنوان مثال، n_منnتیهr_لتولج) یا فقط به چند ضلعی ها (به عنوان مثال، پهrمنمترهتیهr، یا جoمترپآجتیnهسس). بنابراین، ما ترجیح می‌دهیم چندین طبقه‌بندی کننده برای هر یک از انواع اشیاء نقشه OSM با مجموعه ویژگی‌های خاص خود آموزش دهیم تا اینکه یک طبقه‌بندی جهانی را آموزش دهیم که قادر به تشخیص خرابکاری در هر نوع شی باشد.

کاربران OSM می توانند بیشتر خرابکاری های واقعی را برگردانند زیرا به حقیقت زمینی دسترسی دارند، چه از طریق بررسی میدانی و چه با مشاهده تصاویر هوایی. به منظور معرفی این حقیقت زمینی در یک مدل یادگیری، یک ایده استفاده از یک شبکه عصبی کانولوشنال [ ۳۷ ] با تصاویری است که مشارکت‌های OSM و تصاویر هوایی را ترکیب می‌کند. تحقیقات اخیر توانایی شبکه‌های عصبی کانولوشن را برای تشخیص ویژگی‌های جغرافیایی مانند جاده‌ها و ساختمان‌ها در تصاویر هوایی نشان می‌دهد [ ۳۸ ، ۳۹ ]، بنابراین چنین مدل‌هایی می‌توانند ردپای ساختمانی را که بدون وجود واقعی روی زمین وارد OSM می‌شوند، تشخیص دهند.

مجموعه تخریب OSM نیز باید بهبود یابد. همانطور که ساختمان های تخریب شده به صورت دستی نقشه برداری می شدند، یک چشم انداز می تواند غنی سازی مجموعه با نمونه های واقعی باشد، با جستجوی داده های خراب شده قدیمی OSM که تاکنون تعمیر یا حذف شده اند. استفاده مجدد از مجموعه داده در خرابکاری Pokemon GO [ ۹ ] برای ایجاد عکس فوری جدید اولین قدم خواهد بود. این امر مستلزم کاوش عمیق تر در تاریخچه داده های OSM است.

در نهایت، ما می‌خواهیم OSMWatchman را به عنوان ابزاری توسعه دهیم که می‌تواند توسط کاربران OSM استفاده شود تا راحت‌تر به دنبال خرابکاری باشند.

منابع

Zaveri، M. New York City به طور خلاصه در Snapchat و سایر برنامه ها “Jewtropolis” نامگذاری شده است. نیویورک تایمز ، ۳۰ اوت ۲۰۱۸٫ [ Google Scholar ]
گارلینگ، سی. کارگران گوگل در حال «تخریب» نقشه‌های منبع باز دستگیر شدند. Wired ۲۰۱۲ . در دسترس آنلاین: https://www.wired.com/2012/01/osm-google-accusation/ (در ۲۱ ژوئن ۲۰۲۰ قابل دسترسی است).
آیا می‌توانیم هر تغییری را در OSM تأیید کنیم ؟ وضعیت نقشه: ۲۰۱۸٫ در دسترس آنلاین: https://2018.stateofthemap.org/2018/T079-Can_we_validate_every_change_on_OSM_/ (در ۲۱ ژوئن ۲۰۲۰ قابل دسترسی است).
بالاتور، A. تخریب نقشه: وندالیسم نقشه‌کشی در عوام دیجیتال. کارتوگر. J. ۲۰۱۴ ، ۵۱ ، ۲۱۴-۲۲۴٫ [ Google Scholar ] [ CrossRef ]
Truong، QT; تویا، جی. De Runz, C. Towards Towardism Vandalism Detection in OpenStreetMap از طریق یک رویکرد مبتنی بر داده. در مجموعه مقالات دهمین کنفرانس بین المللی علوم اطلاعات جغرافیایی (GIScience 2018)، ملبورن، استرالیا، ۲۸ تا ۳۱ اوت ۲۰۱۸٫ [ Google Scholar ] [ CrossRef ]
کوین، اس. Bull, F. درک تهدیدها برای کیفیت داده‌های جغرافیایی جمع‌سپاری شده از طریق مطالعه ممنوعیت‌های مشارکت‌کننده OpenStreetMap. در استفاده از سیستم اطلاعات جغرافیایی در سازمان های عمومی – چگونه و چرا باید از GIS در بخش عمومی استفاده شود . Valcik, N., Dean, D., Eds. تیلور و فرانسیس: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۹؛ صص ۸۰-۹۶٫ [ Google Scholar ]
چانه، SC; خیابان، WN; سرینیواسان، پ. آیشمن، دی. تشخیص خرابکاری ویکی‌پدیا با یادگیری فعال و مدل‌های زبانی آماری. در مجموعه مقالات چهارمین کارگاه آموزشی اعتبار اطلاعات، WICOW ’10، رالی، NC، ایالات متحده آمریکا، ۲۷ آوریل ۲۰۱۰; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۰; صص ۳-۱۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
هایندورف، اس. پوتاست، ام. استاین، بی. انگلس، جی. تشخیص وندالیسم در ویکی داده. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی ACM در مورد مدیریت اطلاعات و دانش – CIKM ’16، ایندیاناپولیس، IN، ایالات متحده آمریکا، ۲۴ تا ۲۸ اکتبر ۲۰۱۶٫ ACM: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۶؛ صص ۳۲۷-۳۳۶٫ [ Google Scholar ] [ CrossRef ]
جوهاز، ال. نواک، تی. Hochmair، HH; Qiao، S. خرابکاری نقشه‌کشی در عصر بازی‌های مبتنی بر مکان – مورد OpenStreetMap و Pokémon GO. ISPRS Int. J. Geo-Inf. ۲۰۲۰ ، ۹ ، ۱۹۷٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
چن، جی. Zipf، A. یادگیری عمیق با تصاویر ماهواره ای و اطلاعات جغرافیایی داوطلبانه. در تکنیک ها و کاربردهای علم داده های جغرافیایی ; CRC Press: بوکا راتون، فلوریدا، ایالات متحده آمریکا، ۲۰۱۷؛ پ. ۲۷۴٫ [ Google Scholar ]
تویا، جی. ژانگ، ایکس. Lokhat, I. آیا یادگیری عمیق عامل جدیدی برای تعمیم نقشه است؟ بین المللی جی. کارتوگر. ۲۰۱۹ ، ۱-۱۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ایدیانوزی، سی. مک آردل، جی. پارادایم یادگیری انتقال برای شبکه های فضایی. در مجموعه مقالات سی و چهارمین سمپوزیوم ACM/SIGAPP در محاسبات کاربردی، SAC ’19، لیماسول، قبرس، ۸ تا ۱۲ آوریل ۲۰۱۹؛ ACM: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۹؛ صص ۶۵۹-۶۶۶٫ [ Google Scholar ] [ CrossRef ]
Ho، TK جنگل‌های تصمیم تصادفی. در مجموعه مقالات سومین کنفرانس بین المللی تجزیه و تحلیل و شناسایی اسناد، مونترال، QC، کانادا، ۱۴-۱۶ اوت ۱۹۹۵٫ انجمن کامپیوتر IEEE: واشنگتن، دی سی، ایالات متحده آمریکا، ۱۹۹۵; جلد ۱، ص. ۲۷۸٫ [ Google Scholar ]
نیس، پ. گوتز، ام. Zipf، A. Towards Automatic Vandalism Detection در OpenStreetMap. ISPRS Int. J. Geo-Inf. ۲۰۱۲ ، ۱ ، ۳۱۵-۳۳۲٫ [ Google Scholar ] [ CrossRef ]
هایندورف، اس. پوتاست، ام. استاین، بی. انگلس، جی. به سوی کشف وندالیسم در پایگاه های دانش. در مجموعه مقالات سی و هشتمین کنفرانس بین المللی ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات – SIGIR ’15، سانتیاگو، شیلی، ۹ تا ۱۳ اوت ۲۰۱۵٫ صص ۸۳۱-۸۳۴٫ [ Google Scholar ] [ CrossRef ]
Potthast، M. جمع سپاری مجموعه تخریب ویکی پدیا. در مجموعه مقالات سی و سومین کنفرانس بین المللی ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات – SIGIR ’10، ژنو، سوئیس، ۱۹ تا ۲۳ ژوئیه ۲۰۱۰٫ ACM: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۰; صص ۷۸۹-۷۹۰٫ [ Google Scholar ] [ CrossRef ]
خو، ی. چن، ز. زی، ز. Wu, L. ارزیابی کیفیت داده‌های ردپای ساختمان با استفاده از یک شبکه رمزگذار خودکار عمیق. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۷ ، ۳۱ ، ۱۹۲۹-۱۹۵۱٫ [ Google Scholar ] [ CrossRef ]
Goodchild، MF; Li, L. اطمینان از کیفیت اطلاعات جغرافیایی داوطلبانه. تف کردن آمار ۲۰۱۲ ، ۱ ، ۱۱۰-۱۲۰٫ [ Google Scholar ] [ CrossRef ]
تویا، جی. براندو، سی. تشخیص تناقضات سطح جزئیات در مجموعه داده‌های اطلاعات جغرافیایی داوطلبانه. کارتوگر. بین المللی جی. جئوگر. Inf. جئوویس. ۲۰۱۳ ، ۴۸ ، ۱۳۴-۱۴۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
بگین، دی. دیویلر، آر. Roche, S. چرخه زندگی مشارکت کنندگان در جوامع آنلاین مشترک – مورد OpenStreetMap. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۸ ، ۳۲ ، ۱۶۱۱-۱۶۳۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
بگین، دی. دیویلر، آر. روشه، اس. ارزیابی کیفیت اطلاعات جغرافیایی داوطلبانه (VGI) بر اساس رفتارهای نقشه برداری مشارکت کنندگان. در مجموعه مقالات هشتمین سمپوزیوم بین المللی کیفیت داده های مکانی، هنگ کنگ، چین، ۳۰ مه تا ۱ ژوئن ۲۰۱۳٫ جلد XL-2/W1، صص ۱۴۹-۱۵۴٫ [ Google Scholar ]
مونی، پی. Corcoran, P. OpenStreetMap چقدر اجتماعی است؟ در مجموعه مقالات کنفرانس بین المللی AGILE’2012 در علم اطلاعات جغرافیایی، آوینیون، فرانسه، ۲۴ تا ۲۷ آوریل ۲۰۱۲٫ [ Google Scholar ]
Truong، QT; د رانز، سی. Touya, G. تجزیه و تحلیل شبکه های همکاری در OpenStreetMap از طریق کاوی چند گراف اجتماعی وزن دار. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۹ ، ۳۳ ، ۱۶۵۱-۱۶۸۲٫ [ Google Scholar ] [ CrossRef ]
مونی، پی. Corcoran, P. فرآیند حاشیه نویسی در OpenStreetMap. ترانس. GIS ۲۰۱۲ ، ۱۶ ، ۵۶۱-۵۷۹٫ [ Google Scholar ] [ CrossRef ]
کسلر، سی. de Groot، RTA Trust به عنوان یک معیار پراکسی برای کیفیت اطلاعات جغرافیایی داوطلبانه در مورد OpenStreetMap. در علم اطلاعات جغرافیایی در قلب اروپا ; یادداشت های سخنرانی در اطلاعات جغرافیایی و نقشه برداری. Vandenbroucke, D., Bucher, B., Crompvoets, J., Eds. انتشارات بین المللی Springer: برلین، آلمان، ۲۰۱۳; ص ۲۱-۳۷٫ [ Google Scholar ] [ CrossRef ]
قهوهای مایل به زرد، CH; آگیشتاین، ای. ایپیروتیس، پ. Gabrilovich، E. Trust, but Verify: Predicting Contribution Quality for Knowledge Base Construction and Curation. در مجموعه مقالات هفتمین کنفرانس بین المللی ACM در جستجوی وب و داده کاوی – WSDM ’14، نیویورک، نیویورک، ایالات متحده آمریکا، ۲۴-۲۸ فوریه ۲۰۱۴; صص ۵۵۳-۵۶۲٫ [ Google Scholar ] [ CrossRef ]
D’Antonio، F. فوگلیارونی، پ. Kauppinen، T. VGI تاریخچه ویرایش، اعتماد به داده ها و شهرت کاربر را آشکار می کند. در مجموعه مقالات هفدهمین کنفرانس AGILE در علم اطلاعات جغرافیایی، Castellón، اسپانیا، ۳-۶ ژوئن ۲۰۱۴٫ [ Google Scholar ]
لودیجیانی، سی. Melchiori، M. مدل شهرت مبتنی بر رتبه صفحه برای داده های VGI. Procedia Comput. علمی ۲۰۱۶ ، ۹۸ ، ۵۶۶-۵۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Truong، QT; تویا، جی. de Runz, C. ایجاد شبکه‌های اجتماعی در جوامع داوطلبانه اطلاعات جغرافیایی: آنچه رفتارهای مشارکت‌کننده در مورد کیفیت داده‌های جمع‌سپاری آشکار می‌کنند. در یادداشت های سخنرانی در اطلاعات جغرافیایی و کارتوگرافی، مجموعه مقالات کارگاه ها و پوسترها در سیزدهمین کنفرانس بین المللی نظریه اطلاعات فضایی (COSIT 2017)، لاکویلا، ایتالیا، ۴ تا ۸ سپتامبر ۲۰۱۷ ؛ Springer: برلین، آلمان، ۲۰۱۷٫ [ Google Scholar ] [ CrossRef ]
استین، ک. کرمر، دی. Schlieder, C. شبکه های همکاری فضایی OpenStreetMap. در OpenStreetMap در GIScience ; یادداشت های سخنرانی در اطلاعات جغرافیایی و نقشه برداری. جوکار ارسنجانی، ج.، زیپف، ع.، مونی، پ.، هلبیچ، م.، ویرایش. انتشارات بین المللی Springer: برلین، آلمان، ۲۰۱۵; صص ۱۶۷-۱۸۶٫ [ Google Scholar ] [ CrossRef ]
یانگ، آ. فن، اچ. Jing، N. آماتور یا حرفه ای: ارزیابی تخصص مشارکت کنندگان اصلی در OpenStreetMap بر اساس رفتارهای مشارکتی. ISPRS Int. J. Geo-Inf. ۲۰۱۶ ، ۵ ، ۲۱٫ [ Google Scholar ] [ CrossRef ]
رابرتسون، سی. Feick, R. تعریف کارشناسان محلی: تخصص جغرافیایی به عنوان مبنایی برای کیفیت اطلاعات جغرافیایی . کلمنتینی، ای.، دانلی، ام.، یوان، م.، کری، سی.، فوگلیارونی، پی.، بالاتوره، آ.، ویرایش. Schloss Dagstuhl–Leibniz-Zentrum fuer Informatik: Dagstuhl، آلمان، ۲۰۱۷٫ [ Google Scholar ]
هالفاکر، ا. کیتور، آ. Riedl, J. Don’T Bite the Newbies: How Reverts روی کمیت و کیفیت کار ویکی‌پدیا تأثیر می‌گذارد. در مجموعه مقالات هفتمین سمپوزیوم بین المللی ویکی ها و همکاری باز، WikiSym ’11، Mountain View، CA، ایالات متحده آمریکا، ۳–۵ اکتبر ۲۰۱۱; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۱; صص ۱۶۳-۱۷۲٫ [ Google Scholar ] [ CrossRef ]
نیس، پ. Zipf، A. تجزیه و تحلیل فعالیت مشارکت کننده یک پروژه داوطلبانه اطلاعات جغرافیایی – مورد OpenStreetMap. ISPRS Int. J. Geo-Inf. ۲۰۱۲ ، ۱ ، ۱۴۶-۱۶۵٫ [ Google Scholar ] [ CrossRef ]
بریمن، ال. جنگل های تصادفی. ماخ فرا گرفتن. ۲۰۰۱ ، ۴۵ ، ۵-۳۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
گاما، ج. ژلیوبایته، آی. بیفت، ا. پچنیزکی، م. Bouchachia، A. نظرسنجی در مورد انطباق رانش مفهومی. کامپیوتر ACM. Surv. (CSUR) ۲۰۱۴ ، ۴۶ ، ۱-۳۷٫ [ Google Scholar ] [ CrossRef ]
LeCun، Y.; بنژیو، ی. هینتون، جی. یادگیری عمیق. Nature ۲۰۱۵ ، ۵۲۱ ، ۴۳۶٫ [ Google Scholar ] [ CrossRef ]
خو، ی. وو، ال. زی، ز. Chen, Z. استخراج ساختمان در تصاویر سنجش از دور با وضوح بسیار بالا با استفاده از یادگیری عمیق و فیلترهای هدایت شده. Remote Sens. ۲۰۱۸ , ۱۰ , ۱۴۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ژانگ، ز. لیو، کیو. وانگ، Y. استخراج جاده توسط Deep Residual U-Net. IEEE Geosci. سنسور از راه دور Lett. ۲۰۱۷ ، ۱۵ ، ۷۴۹-۷۵۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]

در دسترس بودن نمونه: نمونه ها از نویسندگان در دسترس است.

شکل ۱٫ یک ساختمان فرانسوی که بر روی OSM در هشت قطعه نقشه برداری شده است.

شکل ۲٫ نمودار UML از مجموعه پیشنهادی. مجموعه از عکس‌های فوری OSM تشکیل شده است که حاوی مقداری مشارکت تخریب شده، اما بیشتر مشارکت‌های عادی است.

شکل ۳٫ ساخت یک مجموعه خرابکاری در OSM در چهار منطقه مختلف.

شکل ۴٫ نمای هوایی مناطق مورد مطالعه (Bing Aerial).

شکل ۵٫ نمونه های وندالیسم جعلی.

شکل ۶٫ پیش پردازش داده ها در قالبی مناسب برای الگوریتم یادگیری.

شکل ۷٫ آموزش دو طبقه بندی کننده در دو مجموعه داده مختلف و یک طبقه بندی کننده در هر دو مجموعه داده.

شکل ۸٫ مشاهده عملکرد هر طبقه بندی با پیش بینی خرابکاری در هر منطقه مورد مطالعه.

شکل ۹٫ موارد مثبت کاذب (تکه های ساختمانی کوچک به رنگ قرمز) شناسایی شده توسط سیآ+ب*.

شکل ۱۰٫ موارد مثبت کاذب شناسایی شده توسط مدل آموزش دیده در Aubervilliers و اعمال شده در شهر همسایه Pantin، ناشی از مترآایکس_سپهجمنآل_rآتیمنoویژگی.

شکل ۱۱٫ مثبت کاذب شناسایی شده توسط مدل آموزش دیده در Aubervilliers و اعمال شده در شهر همسایه Pantin، ناشی از n_منس_wمنتیساعتمنn_لتولجویژگی.

شکل ۱۲٫ مشارکتی که طبقه بندی آن به عنوان خرابکاری یا خطا پیچیده است.

ونوس نصیرفام

11 فوریه 2023

مقالات