خلاصه
برنامه ریزی و مدیریت مدرن فضاهای شهری یک موضوع ضروری برای شهرهای هوشمند است و به اطلاعات به روز و قابل اعتماد در مورد کاربری زمین و نقش های عملکردی مکان هایی که مناطق شهری را یکپارچه می کنند بستگی دارد. در چند سال گذشته، به دلیل افزایش دسترسی به دادههای ارجاعشده جغرافیایی از رسانههای اجتماعی، حسگرهای تعبیهشده، و تصاویر سنجش از راه دور، تکنیکهای مختلفی برای تجزیه و تحلیل کاربری زمین رایج شدهاند. در این مقاله، ابتدا انواع دادهها و روشهای متفاوتی که معمولاً در این زمینه اتخاذ میشوند، و همچنین اهداف آنها را برجسته و مورد بحث قرار میدهیم. سپس، بر اساس یک مطالعه سیستماتیک پیشرفته، ما بر کاوش پتانسیل نقاط مورد علاقه (POIs) برای طبقهبندی کاربری زمین، به عنوان یکی از رایجترین دستههای دادههای جمعسپاری متمرکز شدیم. ما یک برنامه کاربردی برای جمع آوری خودکار POI برای منطقه مورد مطالعه ایجاد کردیم، و مجموعه داده ای را ایجاد کردیم که برای تولید تعداد زیادی ویژگی استفاده شد. ما از یک تکنیک رتبهبندی برای انتخاب مناسبترین ویژگیها برای طبقهبندی کاربری زمین استفاده کردیم. به عنوان داده های حقیقت زمینی، ما از CORINE Land Cover (CLC) استفاده کردیم که یک مجموعه داده محکم و قابل اعتماد برای کل قلمرو اروپا در دسترس است. از یک شبکه عصبی مصنوعی (ANN) در سناریوهای مختلف استفاده شد و نتایج ما مقادیر بیش از ۹۰ درصد را برای دقت و امتیاز F در یک آزمایش انجامشده نشان میدهد. تحلیل ما نشان میدهد که دادههای POI پتانسیل امیدوارکنندهای برای توصیف فضاهای جغرافیایی دارند. هدف کار شرح داده شده در اینجا ارائه جایگزینی برای روش های فعلی برای طبقه بندی کاربری و پوشش زمین (LULC) است.
کلید واژه ها:
داده کاوی ; یادگیری ماشینی ؛ طبقه بندی کاربری زمین ; نقاط مورد علاقه ؛ شهرهای هوشمند
۱٫ معرفی
با توسعه اخیر و سریع شهرها، نگرانی های پایداری حوزه جدیدی را برای یک زمینه ضروری در مطالعات اخیر، یعنی رشد هوشمند، گشوده است. به طور کلی رشد هوشمند تلاشی است برای مدیریت بهتر منابع طبیعی از طریق کاهش و کنترل مصرف آنها [ ۱ ]. به همین دلیل، نیاز به برنامه ریزی کاربری اراضی شهری و مدیریت کارآمد مناطق شهری به وضوح اهمیت یافته است [ ۲ ]. این نقاط به طور مستقیم با طراحی و توسعه شهرهای هوشمند مرتبط هستند و به یک هدف مشترک که تلاش برای ایجاد کیفیت زندگی بالا برای مردم در دنیایی پایدارتر است، همگرا می شوند. با توجه به فضاهای شهری، تحلیل کاربری زمین به موضوعی ضروری در این زمینه تبدیل می شود.
در حال حاضر، فضاهای شهری نیز به دلیل مسائلی مانند گسترش شهری، کنترل ترافیک، رفاه، نظارت بر فعالیت جمعیت، پروژه های ساختمانی، حفظ محیط زیست، تجزیه و تحلیل خطرات و آلودگی و تجزیه و تحلیل اقتصادی، علاوه بر مراقبت های بهداشتی عمومی و سایر خدمات ضروری، مورد توجه قرار گرفته اند. که همگی مربوط به رشد هوشمند و شهرهای هوشمند است. کار در این موضوعات اغلب نیازمند طراحی و مدیریت نقشه های ریزدانه است [ ۲ ، ۳ ]. با این حال، با تغییر مناطق شهری، به روز نگه داشتن نقشه ها و اطلاعات مربوط به زیرساخت ها و مناطق عملکردی چالشی است که محققان و ادارات دولتی با توجه به پیچیدگی سیستم های شهری مدرن روزانه با آن مواجه هستند [۳، ۴ ] .].
در این زمینه، سه مفهوم اساسی وجود دارد که باید روی آنها تمرکز کرد، یعنی: (۱) کاربری زمین، (۲) پوشش زمین، و (۳) مناطق عملکردی. استفاده از زمین بسیار با نحوه استفاده مردم از زمین مرتبط است – به عنوان مثال، برای حفاظت، توسعه، یا استفاده مختلط [ ۵]. از نظر پوشش زمین، یک فضای معین را می توان به عنوان جنگل، کشاورزی، سطوح غیرقابل نفوذ، تالاب و حتی انواع آب طبقه بندی کرد که شامل آب های آزاد یا تالاب می شود. علاوه بر این، مفهوم مناطق عملکردی به فضاهایی اطلاق می شود که در آن فعالیت های انسانی رخ می دهد. همان منطقه عملکردی بسته به نوع کاربری زمین می تواند عملکردهای مختلفی را پشتیبانی کند. این انواع شامل کاربری مسکونی، تجاری یا صنعتی، تجاری و غیره است. علاوه بر این، از همان منطقه عملکردی می توان برای فعالیت های مختلف انسانی مانند زندگی، خرید، غذا خوردن و تفریح و غیره استفاده کرد [۶ ]]. برای تجزیه و تحلیل پوشش زمین (LC)، بسیاری از نویسندگان به طور کلی روش هایی را بر اساس تفسیر تصاویر سنجش از دور و استخراج اطلاعات از اشیاء تصویر، که اجزای صحنه یا موجودیت های معنادار در یک تصویر معین هستند، اتخاذ می کنند [۷] (به عنوان مثال، درخت، خانه ، پارکینگ ماشین یا وسیله نقلیه).
درک چگونگی استفاده و تعامل مردم با مناطق عملکردی و چگونگی تغییر این مناطق معمولاً برای تجزیه و تحلیل کاربری زمین ضروری شده است [ ۳ ، ۶ ، ۸ ]. از آنجایی که بیشتر محققان به جای مناطق عملکردی در مقیاس بزرگ بر روی اشیاء پوشش زمین تمرکز می کنند، نقشه های این نوع واحدهای شهری به طور گسترده در دسترس نیست. گذشته از اینکه یک منطقه کاربردی از نظر فضایی بزرگتر از یک شی است، اولی از نظر معنایی نیز با دومی متفاوت است. به عنوان مثال، در حالی که یک منطقه مسکونی یک منطقه کاربردی است، یک ساختمان متعلق به اشیاء پوشش زمین است. از آنجا که این دو نوع واحد در لایههای معنایی متفاوتی قرار دارند، روشهای مبتنی بر شیء سنتی نمیتوانند مناطق عملکردی را طبقهبندی کنند [ ۴]]. با این وجود، مطالعات زیادی بر اساس تصاویر سنجش از دور برای ارائه طبقهبندی مناطق شهری از طریق تجزیه و تحلیل مورفولوژیکی، استخراج ویژگیهای طیفی و بافتی برای نمایش اطلاعات برای یک منطقه معین وجود دارد [۹ ] . این رویکرد در سال های اخیر به طور قابل توجهی در حال تحول بوده است، زیرا به ما اجازه می دهد تا به نحوی اطلاعاتی در مورد پوشش زمین مربوط به مورفولوژی منطقه، با توجه به حضور، شکل، اندازه و حتی توزیع فضایی ساختمان ها، از جمله فضاهای باز [ ۱۰ ، ۱۱ ، ۱۲]. با این حال، رابطه بین مناظر شهری و نحوه استفاده مردم از آنها برای شناسایی مناطق عملکردی ضروری است، با توجه به اینکه الگوهای کاربری زمین نیز تحت تأثیر سبک زندگی داخلی و سایر عوامل نیز قرار دارند [ ۹ ، ۱۳ ]. از آنجایی که تصاویر سنجش از دور ویژگیهای معنایی سطح بالایی را ارائه نمیدهند، لازم است منابع داده دیگری را برای ارائه آنها جمع آوری کنیم.
استفاده از مدلهای سنجش از دور سنتی نیز طبقهبندی کاربری زمین با ویژگیهای موضوعی معمولی را دشوار میکند [ ۴ ]. با توجه به این نگرانی، بسیاری از نویسندگان استفاده از ترکیبی از انواع داده ها و روش های مختلف را پیشنهاد می کنند [ ۲ ، ۱۴ ]. علاوه بر این، با توسعه سریع فناوری در سالهای اخیر، روشهای متعددی بر اساس قابلیتهای جدید اضافه شده توسط پیشرفتها در سیستمهای اطلاعات جغرافیایی (GIS) و دادههای بزرگ جغرافیایی پدید آمده است [۱۳] .]. به عنوان پیشنهادی برای طبقهبندی بهتر مناظر شهری، برخی از نویسندگان استفاده از دادهها، مانند اطلاعات اجتماعی، ویژگیهای اجتماعی-اقتصادی، نقاط مورد علاقه (POI) یا دادههای شبکه اجتماعی مبتنی بر مکان (LSBN) را همراه با تصاویر سنجش از دور پیشنهاد کردهاند. ساخت مدل های قوی تر [ ۲ ، ۳ ، ۶ ، ۹ ].
هدف اصلی این مقاله ارائه رویکردی برای طبقهبندی کاربری زمین بر اساس ویژگیهای استخراجشده از POI، به عنوان یکی از رایجترین انواع دادههای جمعسپاری است. برای بایگانی کردن این هدف، ما یک نظرسنجی را برای جمعآوری مقالات مرتبط با خصوصیات فضاهای جغرافیایی انجام دادیم، که به ما امکان میدهد تا تحلیل سیستماتیک ارائه شده را انجام دهیم، که به عنوان پسزمینه برای توسعه رویکرد پیشنهادی ما استفاده میشود. علاوه بر این، ما روشی را برای جمعآوری خودکار دادههای ورودی به صورت رایگان، در یک منطقه بزرگ، و استفاده از مجموعه داده CORINE Land Cover (CLC) به عنوان حقیقت اصلی، که منبعی است که توسط جامعه اروپایی ایجاد شده است، از طریق یک روش سخت و زمانبر پیشنهاد میکنیم. روند. در آینده، ما معتقدیم که یک رویکرد خودکار مانند ما می تواند به طور خودکار ایجاد شود، یا حداقل به ایجاد آن کمک کند. علاوه بر این، به منظور بررسی پتانسیل دادههای POI برای شناسایی استفاده و پوشش فضاهای جغرافیایی، آزمایشهای مختلفی را انجام میدهیم و دقت بیش از ۹۰ درصد را در یکی از موارد بایگانی میکنیم. مجموعه دادههایی که استفاده میکنیم و همچنین کد منبع برنامهای که برای جمعآوری POI توسعه دادهایم، در دسترس عموم قرار گرفتهاند و میتوان آنها را از طریق پیوند موجود در دانلود کرد.بخش مواد تکمیلی
ساختار باقیمانده این مقاله به شرح زیر است: بخش ۲ یک توصیف پیشرفته، شامل تجزیه و تحلیل مقایسه ای داده ها و روش های مورد استفاده برای طبقه بندی کاربری اراضی را ارائه می دهد. بخش ۳ رویکردی را که ما برای توصیف مناطق جغرافیایی، از جمله جمعآوری و پیش پردازش دادهها پیشنهاد کردیم، توضیح میدهد. در بخش ۴ ، نتایجی را که از طریق کاری که انجام دادهایم بر اساس سناریوهای مختلفی که برنامهریزی کردهایم، ارائه و مورد بحث قرار میدهیم. در نهایت، در بخش ۵ ، نتیجهگیری و پیشنهادات خود را برای کار آینده ارائه میکنیم.
۲٫ وضعیت هنر
با توجه به اهمیت به روز بودن اطلاعات مربوط به LULC و مناطق عملکردی شهری، اخیراً تلاش های زیادی در این زمینه صورت گرفته است و محبوبیت انواع داده ها و روش های مختلف برای کشف دانش در زمینه تحلیل کاربری اراضی افزایش یافته است. در این بخش، رایجترین دستهبندی دادهها و متداولترین روشهای بهکار گرفته شده توسط نویسندگان در این موضوع را مورد بحث قرار میدهیم.
۲٫۱٫ داده ها
بسیاری از تکنیک ها را می توان برای تجزیه و تحلیل کاربری زمین، بر اساس انواع داده های مختلف استفاده کرد. یک وظیفه مهم برای محققان بهبود دقت نتایج حاصل از این تکنیک ها است. ادغام ویژگی های استخراج شده از انواع داده های مختلف، تا حدی می تواند نتایج بهتری را نشان دهد. در این بخش، انواع دادههای اصلی را که اغلب برای استخراج منطقه عملکردی شهری و طبقهبندی LULC استفاده میشوند، ارائه میکنیم. انواع داده های ارائه شده در این بخش فرعی حداقل در دو مطالعه در میان مجموعه آثاری که در طول بررسی ما مورد تجزیه و تحلیل قرار گرفتند، استفاده شد.
۲٫۱٫۱٫ تصاویر سنجش از راه دور
چندین روش، که برای به روز رسانی نقشه های LC استفاده می شود، بر اساس تفسیر عکس های هوایی و بررسی های میدانی است که زمان بر و دشوار است. با توجه به توسعه اخیر فناوری های سنجش از دور، تعداد زیادی از تصاویر سنجش از دور از طریق حسگرهای نصب شده در هواپیما یا ماهواره ها در دسترس هستند [ ۱۵ ]. علاوه بر این، تصاویر سنجش از دور در مجموعه داده های علمی وجود دارد که در برخی موارد توسط دانشگاه ها [ ۱۶ ]، مراکز تحقیقاتی [ ۳ ] و سازمان های دولتی [ ۱۷] ارائه شده است.]، در میان سایر سازمان ها. تصاویر سنجش از دور اغلب برای استخراج اطلاعات LC مفید هستند و در ترکیب با سایر انواع داده ها، عموماً امکان شناسایی قطعات زمین مورد استفاده برای اهداف مختلف (مثلاً مسکونی، تجاری یا صنعتی) را فراهم می کنند. این شناسایی معمولاً بر اساس خصوصیات فیزیکی اشیاء، با ویژگی های مختلف، مانند توزیع فضایی، رنگ، بافت، شکل و غیره است [ ۲ ، ۱۵ ].
برای تحلیل کاربری زمین و منطقه عملکردی، هنگام بحث در مورد تصاویر سنجش از دور، ویژگیهای معنایی سطح پایین را میتوان به عنوان اطلاعاتی که با دادهها همراه است، مانند ویژگیهای فیزیکی (مانند رنگ و بافت) توصیف کرد و ویژگیهای معنایی سطح بالا مستقیماً به هم مرتبط هستند. به “دانش” خاص برای هر کاربر و برنامه کاربردی [ ۲ ، ۴]. شکاف معنایی معمولاً به نابرابری ویژگی های شناسایی شده بین ویژگی های معنایی سطح پایین و سطح بالا اشاره دارد. استفاده از ویژگیهای معنایی سطح پایین احتمالاً دقت کمتری دارد زیرا اشیاء مختلف ممکن است ویژگیهای فیزیکی یکسانی داشته باشند و اشیاء یکسان ممکن است ویژگیهای متفاوتی داشته باشند. در طبقهبندی، افزودن ویژگیهای معنایی سطح بالا، ارجاع به ویژگیهای مختلف شی دادهشده توسط کاربر انسانی احتمالاً به نتایج بهتری دست خواهد یافت. به عنوان مثال، مجموعه ای از تصاویر سنجش از دور که در آن اشیاء پوشش زمین (به عنوان مثال، ساختمان ها) را می توان بر اساس یک توصیف سطح پایین تشخیص داد. در این مورد، اطلاعات سطح بالا ویژگی های خوبی را برای طبقه بندی مناطق عملکردی، مانند مناطق مسکونی، تجاری، یا صنعتی فراهم می کند [ ۲]]. افزودن ویژگی های معنایی سطح بالا توسط بسیاری از نویسندگان پیشنهاد شده است – به عنوان مثال، ژونگ و همکاران. [ ۱۸ ]، تا امکان دستیابی به نتایج بهتر برای طبقه بندی کاربری اراضی فراهم شود.
۲٫۱٫۲٫ داده های جمع سپاری شده
دادههای جمعسپاری بهطور داوطلبانه توسط کاربران، عمدتاً با استفاده از برنامههای کاربردی تلفن همراه، ایجاد میشوند تا دادههای مفیدی را برای دامنههای مختلف و انواع مختلف ارائه دهند، بهویژه زمانی که دادهها فرصتطلبانه هستند، بر اساس زمینه کاربر، مانند POI، دادههای رسانههای اجتماعی، مسیرهای تاکسی، تلفن همراه. استفاده، فعالیتهای ورود از شبکههای اجتماعی مبتنی بر مکان (LBSNs)، و حتی پیامهای متنی [ ۹ ، ۱۹ ]. در سرتاسر جهان، هر روز ۷۰۰۰ میلیون چک در Foursquare وجود دارد، ۵۰۰ میلیون توییت پست میشود و بیش از ۸۰ میلیون عکس در اینستاگرام آپلود میشود [ ۲۰]]. این منابع غنی و متنوع داده به طور بالقوه اطلاعاتی را در مورد فعالیت های انسانی و اطلاعات اجتماعی-اقتصادی ارائه می دهند که ایده اصلی بسیاری از مطالعات برای نشان دادن عملکردهای شهری بوده است [ ۹ ]. در میان دستههای مختلف دادههای جمعسپاری، بیشترین استفاده از آنها موارد زیر است:
نقاط مورد علاقه (POI)
عملکردهای شهری خاص توسط توزیع های فضایی و تعاملات انواع مختلف POI منعکس می شوند [ ۶ ]. برای انواع مختلف فعالیت ها (مانند کار، مطالعه، غذاخوری، خرید یا استراحت)، افراد معمولاً به POI های خاصی مراجعه می کنند. به همین دلیل، بسیاری از مطالعات علمی (به عنوان مثال، [ ۶ ، ۱۳ ، ۱۹ ، ۲۱ ، ۲۲ ]) بر استخراج ویژگی ها از POI متمرکز شده اند، که اغلب با تصاویر سنجش از دور ترکیب می شوند. POI ها را می توان از منابع مختلف جمع آوری کرد و اغلب به صورت رایگان از طریق رابط های برنامه نویسی برنامه های کاربردی شبکه های اجتماعی (API) و ارائه دهندگان خدمات نقشه آنلاین در دسترس هستند. برای مثال، گونگ و همکاران. [ ۱۱ ] و ژای و همکاران. [۱۹ ] از POIهای استخراج شده از طریق APIهای ارائه شده توسط Baidu Map Services استفاده کرد، در حالی که لیو و همکاران. [ ۲۲ ] آنها را از http://www.dianping.com ، یکی از بزرگترین شرکتهای آنلاین تا آفلاین چین، https://www.fang.com ، یکی از بزرگترین ارائهدهندگان خدمات اطلاعات خانه آنلاین در چین، و همچنین نقشههای Baidu به دست آورد.
پیام های متنی
دادههای جمعسپاری معمولاً حاوی مقادیر بسیار زیادی پیامهای متنی هستند که میتوانند برای تولید ویژگیهای اجتماعی-اقتصادی مورد سوء استفاده قرار گیرند [ ۹ ]. از جمله نمونههای رایج این نوع دادههای جمعسپاری، توییتها (یا پیامهای توییتر) هستند که در [ ۹ ، ۱۹ ، ۲۰ ، ۲۳ ، ۲۴ ] استفاده میشوند. علاوه بر این، سرویسهای دیگری نیز برای همین منظور مورد استفاده قرار میگیرند، مانند برنامه Sina Weibo [ ۲۳ ]، زیرا دارای ساختار کاربری متقارن توییتر است، که در آن کاربر میتواند بدون نیاز به ایجاد دوستی، شخص دیگری را دنبال کند. دسته دیگری از داده های متنی که می تواند در طبقه بندی کاربری زمین در نظر گرفته شود، برچسب های مرتبط با هر عکس در فلیکر [ ۸] است.]. به طور کلی، کاربران میتوانند مختصات جغرافیایی را به پیامها و عکسها متصل کنند، که تمرکز شبکههای اجتماعی مبتنی بر مکان (LSBN) است، که اغلب APIهای باز را برای دانلود رایگان این محتوا ارائه میدهند.
فعالیتهای ورود از LBSN
با در نظر گرفتن مکان فیزیکی کاربران، چندین LBSN آثاری از تعاملات اجتماعی ایجاد کرده اند. به طور کلی، در این شبکه های اجتماعی، کاربران می توانند در یک مکان بررسی کنند، به آن امتیاز دهند و نظرات یا نکات خود را به اشتراک بگذارند [ ۶ ]. برخی از نمونههای LBSN عبارتند از Gowalla، Foursquare و Facebook Places که با افزایش ابعاد این خدمات، به طور فزایندهای مورد سوء استفاده قرار میگیرند. فلیکر را نیز می توان در این دسته در نظر گرفت [ ۸ ]، زیرا یک عکس در یک مکان خاص شاهد حضور کاربر در آن زمان است. برخی از مطالعات (به عنوان مثال، در [ ۲۵ ]) جنبه های مکانی، زمانی، اجتماعی و متنی مرتبط با صدها میلیون فعالیت ورود کاربر محور را تجزیه و تحلیل کرده اند. دیگران (به عنوان مثال، در [ ۲۰]) فعالیت های ثبت نام LBSN را به عنوان یک عامل محبوبیت برای POI بررسی کرده اند. استفاده از چنین داده هایی توسط زینگ و همکاران تشویق شد. [ ۹ ] برای بهبود نتایج زمانی که دسته های دیگر داده ها اطلاعات مفیدی را ارائه نمی دهند.
۲٫۱٫۳٫ مجموعه داده های OpenStreetMap (OSM).
در مقایسه با منابع اختصاصی، برای بسیاری از مناطق توسعهیافته، مجموعه دادههای OSM تقریباً همیشه کامل هستند، طبق تحلیل اخیر در شبکههای خیابانی آنها [ ۲۶]]. مجموعه ای از رابط های کاربر پسند برای داوطلبان در دسترس است. این رابطها برخی از قابلیتهای ویرایش نقشه را ارائه میکنند که به کاربر اجازه میدهد نمایش هندسی ویژگیها یا مناطق مورد علاقه را بر اساس تصاویر سنجش از دور ارائه شده توسط طیف وسیعی از کتابخانههای تصویری موجود برای پروژههای مبتنی بر علم شهروندی مشخص کند. علاوه بر این، ویژگی های فردی را می توان به ویژگی های نقشه برداری شده اضافه کرد تا آنها را غنی کند. ایجاد این نوع خدمات به لطف فناوری دقیق مبتنی بر GPS موجود در دستگاه های تلفن همراه، پیشرفت هایی را در نقشه های دیجیتال ارائه کرده است که ممکن است تجربه نقشه جدید و کامل تری را ایجاد کند. در نتیجه، محتوای دیجیتال به طور قابل توجهی متنوع شده است و به لطف داوطلبان، اطلاعات فضایی بسیار بیشتری را به ارمغان می آورد. به دلیل تعداد زیاد کاربران، مجموعه های بسیار بزرگتری از محتوا و اطلاعات دیجیتال برای استفاده جامعه رایگان است. در این زمینه، OSM یک نمونه ایده آل از یک پروژه مشارکتی است. به عنوان مثال، مجموعه داده های آن توسط لیو و همکاران استفاده می شود. [۲ ] و ژانگ و همکاران. [ ۳ ] در مطالعات خود.
۲٫۱٫۴٫ مسیرهای تاکسی
فراتر از دسته بندی های ذکر شده داده ها، بسیاری از آثار نیز با مقداری فرکانس از مسیرهای تاکسی استفاده کرده اند [ ۲۲ ، ۲۷ ]. مسیرهای تاکسی می توانند به راحتی نقاط سوار و تحویل، طول سفر و زمان هر سفر را ارائه دهند. با این حال، این نقاط اغلب نشان دهنده مکان های دقیقی نیستند که کاربران در آن فعالیت های خود را انجام می دهند [ ۲۸]. در بیشتر موارد، مسافران از تاکسی خود بسیار دور از مقصد نهایی خارج می شوند. علاوه بر این، از آنجایی که اطلاعات ارائه شده توسط مسیرهای تاکسی حاوی نشانه دقیقی از اهداف مسافر برای فعالیت هایشان نیست، پرداختن به این نوع اطلاعات چالش برانگیز است. این دلیل اصلی است که چرا دادههای مسیر تاکسی معمولاً با انواع دادههای دیگر (مثلاً بلوکهای ساختمان یا اطلاعات کاربر LBSN) ترکیب میشوند تا نتایج بهتری ارائه دهند.
۲٫۱٫۵٫ بلوک های ساختمان
بلوکهای ساختمانی اغلب بهعنوان «بلوکهای خیابانی» شناخته میشوند، و اگرچه برای مثال، مقولهای متفاوت از مسیرهای تاکسی را نشان میدهند، اغلب به عنوان اطلاعات تکمیلی در بسیاری از مطالعات استفاده میشوند. اطلاعات بلوک های ساختمانی معمولاً توسط ادارات محلی [ ۱۴ ] ارائه می شود، اما استخراج این نوع داده ها از تصاویر سنجش از راه دور امکان پذیر است. این تکنیک برای مثال توسط لیو و همکاران استفاده شد. [ ۲۲ ]، و بلوکهای ساختمانی بهدستآمده با سوابق شبکههای اجتماعی، مسیرهای تاکسی و POI برای مشخص کردن ساختمانهای با کاربری مختلط ترکیب شدند. کار دیگری که توسط هوانگ و همکاران انجام شده است. [ ۱۵ ]، همچنین از بلوک های ساختمانی همراه با تصاویر سنجش از دور برای نقشه برداری کاربری زمین شهری استفاده کرد.
۲٫۲٫ مواد و روش ها
با پیشرفت در منابع محاسباتی، در دسترس بودن داده های جغرافیایی مرجع و ابزارهای مدرن ارائه شده توسط برنامه های GIS، تکنیک های مختلف برای تجزیه و تحلیل کاربری زمین محبوب شده اند. در این بخش، رایجترین روشهایی که اغلب در این زمینه اتخاذ میشوند را برجسته میکنیم. روشهای تحت پوشش این بخش فرعی حداقل در دو مطالعه علمی در میان مجموعهای از آثار مورد تجزیه و تحلیل در نظرسنجی ما استفاده شدهاند.
۲٫۲٫۱٫ طبقه بندی شی گرا (OOC)
اصطلاحاتی مانند “شی گرا” و “شی خاص” به عنوان تجزیه و تحلیل تصویر مبتنی بر شی (OBIA) نیز نامیده می شود. این حوزه علمی پس از اولین نرم افزار تجاری که به طور خاص برای طراحی و تجزیه و تحلیل «اشیاء تصویری» به جای پیکسل های منفرد، بر اساس تصاویر سنجش از دور طراحی شده بود، پدیدار شد [۷] .]. با این مفاهیم، اجزای صحنه یا موجودیت ها اشیاء قابل تشخیص در یک تصویر مشخص هستند (به عنوان مثال، یک درخت، خانه، یا وسیله نقلیه). با استفاده از یک رویکرد شی گرا، طبق تعریف کاربر خاص، تصاویر مبتنی بر پیکسل به اشیا تقسیم می شوند. در هر شیء تصویر، همگنی تعریف شده توسط کاربر در طول فرآیند تقسیم بندی به دست می آید. برای جلوگیری از رشد زیاد ناهمگونی ایجاد شده توسط کاربر، یک جفت شیء مجاور در هر مرحله از فرآیند ادغام می شوند. اگر رشد کوچکتر از پارامتر مقیاس [ ۱۰ ] تجاوز کند، فرآیند قطع می شود . در حال حاضر، این یکی از محبوب ترین روش ها برای استخراج الگوهای کاربری زمین از طریق ویژگی های فیزیکی اشیاء زمین از تصاویر است [ ۱۳ ].]. اگرچه بسیاری از مطالعات از این روش استفاده کردهاند، طبقهبندی شیگرا فقط میتواند اطلاعات پوشش زمین را بر اساس ویژگیهای معنایی سطح پایین نشان دهد، جایی که روابط فضایی بین اشیاء زمینی در نظر گرفته نمیشود.
۲٫۲٫۲٫ تخصیص دیریکله نهفته (LDA)
هنگام تجزیه و تحلیل توصیفات متنی فراوان برای کشف ویژگیهای موضوعی و ساختارهای مربوط به آنها، تعداد زیادی از مطالعات از مدلهای موضوع احتمالی استفاده کردند و در میان آنها، رایجترین آنها LDA [ ۶ ] بود. یک مدل LDA اغلب برای استخراج اطلاعات اجتماعی-اقتصادی از دادههای جمعسپاری استفاده میشود و توصیفهای صریحی از فعالیتهای انسانی ارائه میکند، مانند آنچه که توسط Xing و همکارانش اجرا شده است. [ ۹ ]. علاوه بر این، از آن برای استخراج موضوعات از توضیحات متنی عکسهای فلیکر به منظور ایجاد ویژگیهایی برای مدل طبقهبندی کاربری زمین استفاده شده است [ ۸]]. LDA یک مدل بدون نظارت است که به روش مولد و احتمالی کار می کند و یک رویکرد کیسه ای از کلمات را پیاده سازی می کند، به این معنی که ترتیب کلمات در سند قابل اجرا نیست. در LDA، ایده اصلی این است که اسناد را به عنوان احتمال توزیع شده موضوعات پنهان نشان دهیم، که در آن هر موضوع توزیعی از کلمات است. برای ساده کردن مفهوم، مدل موضوع احتمالی، از جمله LDA، می تواند به طور کلی به عنوان “ترکیبی تصادفی از موضوعات” توصیف شود [ ۱۸ ].
۲٫۲٫۳٫ K-Means
در میان بسیاری از الگوریتم های خوشه بندی، K-means یکی از رایج ترین الگوریتم ها در داده کاوی است [ ۱۸ ]. بهعنوان یک نوع یادگیری بدون نظارت، خوشهبندی K-means برای دادههای بدون برچسب استفاده میشود – یعنی زمانی که دستهها تعریف نشده باشند. این الگوریتم با مکان یابی گروه ها در داده ها با استفاده از پارامتر k که تعداد گروه ها را نشان می دهد کار می کند. فرآیند خوشهبندی تکراری است و در هر تکرار، نقاط داده بر اساس ویژگیهایشان به یکی از گروههای k اختصاص داده میشوند. یک مثال از کاربرد K-means توسط Trevino [ ۲۹ ] ارائه شده است، که در آن شباهت ویژگی برای خوشه بندی نقاط داده استفاده می شود. علاوه بر این، تکنیک های خوشه بندی با موفقیت توسط بسیاری از نویسندگان برای پیشنهادات مختلف، مانند تعریف مناطق یا مناطق [ ۳۰] به کار گرفته شده است.]، طبقه بندی ویژگی های استخراج شده از داده های رسانه های اجتماعی [ ۲ ]، تجزیه و تحلیل همبستگی بین نقاط مورد علاقه و مناطق [ ۱۳ ]، و جمع آوری مناطق رسمی مشابه از نظر توزیع موضوع منطقه [ ۲۱ ].
۲٫۲٫۴٫ شناخت معنایی سلسله مراتبی (HSC)
HSC یک روش بیزی از پایین به بالا با ساختار سلسله مراتبی است که برای طبقه بندی مناطق عملکردی شهری استفاده می شود [ ۴ ، ۱۴]]. از چهار سطح معنایی تشکیل شده است: مناطق عملکردی، الگوهای اشیاء فضایی، دسته بندی اشیاء، و ویژگی های بصری. در این مدل با استفاده از احتمالات شرطی، هر سطح رابطه بین دو لایه معنایی را مشخص می کند. بنابراین، سطح اول می تواند برای مثال، رابطه بین مناطق عملکردی و الگوهای اشیاء فضایی را مدل کند. به طور معمول، اشیاء مختلف به طور کلی دارای توزیعهای متفاوتی از ویژگیهای بصری در یک الگوی شی فضایی مشابه هستند، در حالی که در یک نوع شیء مشابه، الگوهای متفاوتی از اشیاء فضایی ممکن است وجود داشته باشد و تفاوتهای کوچکی در رابطه با توزیع ویژگیهای بصری آنها داشته باشد. HSC برای طبقه بندی LULC و منطقه عملکردی با استفاده از داده هایی مانند تصاویر سنجش از راه دور، POI ها و بلوک های جاده استفاده می شود.
۲٫۲٫۵٫ جنگل تصادفی (RF)
RF یک الگوریتم یادگیری مجموعه کیسهای است که با ساختن درختهای تصمیمگیری چندگانه کار میکند، جایی که هر یک بر اساس یک نمونه فرعی تصادفی از مجموعه داده آموزشی [ ۳ ] است. این مدل نتایج خود را بر اساس کلاسی که بیشترین درخت رای داده است ارائه می دهد. به عنوان یک روش مجموعه مبتنی بر درخت، این طبقهبندیکننده میتواند دقت بالاتری نسبت به درختهای تصمیم منفرد، مانند درختهای طبقهبندی و رگرسیون (CART) یا C4.5 ارائه دهد. علاوه بر این، در بسیاری از موارد، بدون نیاز به تنظیم پارامترهای متعدد، RF بر مدل های محبوب مانند ماشین های بردار پشتیبانی غلبه می کند. در این زمینه، RF به خوبی در ادبیات تثبیت شده است و به طور گسترده برای طبقه بندی کاربری زمین و منطقه عملکردی استفاده می شود [ ۴ ، ۸ ، ۱۹ ].
۲٫۲٫۶٫ ماشین بردار پشتیبانی (SVM)
بهطور کلی، ماشینهای بردار پشتیبان را میتوان به عنوان یک روش یادگیری تحت نظارت توصیف کرد که به عنوان یک طبقهبندی متمایز کار میکند. این روش یک ابر صفحه یا مجموعهای از ابرصفحهها ایجاد میکند که امکان طبقهبندی ورودیها را در فضایی با ابعاد بالا با جدا کردن آنها فراهم میکند. الگوریتم بر اساس داده های آموزشی، یک ابر صفحه بهینه را خروجی می دهد. این ابر صفحه یک فضای N بعدی است که در آن “N” تعداد ویژگی های مورد استفاده برای آموزش است. به عنوان مثال، یک ابر صفحه ایجاد شده برای یک فضای دو بعدی، خطی است که آن را به دو قسمت مختلف تقسیم می کند [ ۳۱ ]. این مدلی مبتنی بر اصل به حداقل رساندن ریسک ساختاری است [ ۳۲]. این روش، به عنوان مثال، به عنوان یک طبقه بندی در طبقه بندی صحنه، برای پیش بینی برچسب صحنه استفاده می شود. ایده اصلی این تکنیک آموزش یک طبقهبندی کننده یادگیری خطی در فضای هسته با در نظر گرفتن تعمیم و بهینهسازی عملکرد است که منجر به غلبه بر مشکل طبقهبندی الگو میشود [ ۱۸ ]. SVM برای مثال توسط لیو و همکاران انتخاب شد. [ ۲ ] برای شناسایی انواع کاربری اراضی شهری. نویسندگان SVM را اتخاذ کردند زیرا در مطالعات قبلی پیشنهاد شده بود (به عنوان مثال، در [ ۳۳ ، ۳۴ ]) که، هنگام کار با ویژگی های با ابعاد بالا، این روش دارای سطح کارایی بالایی به عنوان یک طبقه بندی است.
۲٫۲٫۷٫ شبکه عصبی پیچیده عمیق (DCNN)
یک رویکرد رایج برای طبقهبندی LULC استفاده از روشهایی در هر فیلد برای استخراج یا طبقهبندی مستقیم ویژگیهای سطح پایین ویژگیهای فیزیکی تصاویر است. این روشها میتوانند مزایایی نسبت به روشهای مبتنی بر هر پیکسل یا شی اضافه کنند. با این حال، تکنیکهای طبقهبندی پوشش زمین و مبتنی بر شیء مبتنی بر هر پیکسل و تکنیکهای طبقهبندی پوشش زمین بر اساس توصیفگرهای دستی ویژگی و معماریهای کم عمق هستند و نمیتوانند با تصاویر پیچیده کاربری زمین برای ثبت ویژگیهای خوب کار کنند [۱۵ ]]. از آنجایی که این تصاویر برای تعمیم استفاده می شوند، هیچ یک از این روش ها به سطح دقتی که عموماً برای کاربردهای عملی لازم است، نمی رسد. کاربری زمین را می توان در سطوح مختلفی در طرح LULC توصیف کرد، از جمله شدت پیکسل ها، لبه ها، اشیاء، بخش هایی از اشیاء و قطعات زمین. معماری های عمیق می توانند به طور موثر همه این سطوح را نشان دهند. از طریق یک فرآیند یادگیری عمیق، گروهی از الگوریتمهای یادگیری ماشین با به کارگیری معماریهای عمیق، که ترکیبی از تبدیلهای غیرخطی متعدد هستند، قصد مدلسازی انتزاعات سطح بالا را دارند. مدلهای یادگیری عمیق یک رویکرد بسیار امیدوارکننده برای رسیدگی به مشکلات طبقهبندی LULC شهری هستند، زیرا میتوانند نمایشهای سلسله مراتبی ویژگیهایی را که طرحهای LULC شهری را توصیف میکنند، مدل کنند.۳۵ ]. در میان بسیاری از روشهای یادگیری عمیق، تکنیک DCNN به سطح بالایی از عملکرد در طبقهبندی کاربری زمین، بر اساس تصاویر سنجش از دور دست یافته است.
۲٫۳٫ تحلیل مقایسه ای
با توجه به اطلاعات ارائه شده در جدول ۱ ، POIها از رایج ترین انواع داده های جمع سپاری هستند که در مطالعاتی که ما تجزیه و تحلیل کردیم مشاهده شده است. بسیاری از نویسندگان آنها را اتخاذ میکنند، عمدتاً به دلیل ارتباط مستقیمی که با رفتار انسانی دارند، که تا حدودی امکان آشکار کردن روشهای استفاده افراد از فضاها را فراهم میکند. علاوه بر این، POI ها اغلب با فعالیت های کاربر LBSN مرتبط هستند، و به همین دلیل، این دو نوع داده اغلب برای طبقه بندی کاربری زمین ترکیب می شوند [ ۲ ، ۳]]. با مشاهده جدول، همچنین می توان به استفاده از انواع مختلف داده های جمع سپاری تولید شده توسط داوطلبان در کارهای روزمره آنها اشاره کرد. در بسیاری از کشورها، دادههای جمعسپاری شده بهطور گسترده در دسترس هستند، و استفاده از آنها را در مواردی تشویق میکنند که سایر مجموعههای داده (مانند دادههای برنامهریزی شهری یا دادههای GPS) در دسترس نیستند.
با توجه به روشها، به دلیل عدم وجود دادههای صحت زمین برای اعتبارسنجی نتایج، بسیاری از محققین از تکنیکهای بدون نظارت استفاده میکنند که در میان آنها روشهای خوشهبندی، از جمله خوشهبندی طیفی و K-نزدیکترین همسایه (KNN) رایج هستند. با این حال، با توجه به مطالعاتی که ما تحلیل کردیم، متداولترین تکنیک در این دسته K-means است، با توجه به سادگی و کارایی آن برای کارهایی مانند گروهبندی POI، مناطق عملکردی یا فضاهای جغرافیایی. برخی از نمونههای آثاری که در آنها از K-means استفاده شده است عبارتند از [ ۲ ، ۱۶ ]. در [ ۲ ]، نویسندگان به این نتیجه رسیدند که استفاده از این روش همراه با روش های دیگر منجر به نتایج رضایت بخشی برای طبقه بندی کاربری اراضی می شود.
در طول بررسی خود، موارد مختلفی را مشاهده کردیم که در آن دادههای حقیقت پایه در دسترس بود، که نویسندگان را به سمت اتخاذ تکنیکهای نظارت شده سوق داد. در میان تکنیکهای تحت نظارت، RF یکی از رایجترین تکنیکها بود، با توجه به اثربخشی آن بهعنوان یک طبقهبندی، با در نظر گرفتن تعادل بین مصرف منابع و عملکرد برای موضوعاتی مانند طبقهبندی کاربری زمین و مناطق عملکردی. با این حال، دلایل دیگری وجود دارد که چرا RF اغلب انتخاب می شود، به عنوان مثال، در [ ۴ ، ۳۶ ]. با در نظر گرفتن مورد خاص مورد دوم، نویسندگان ذکر کردند که آنها این الگوریتم را اتخاذ کردند زیرا آن را به عنوان یک روش مقیاس پذیر و قدرتمند برای مقابله با مجموعه داده های حاوی تعداد زیادی ویژگی می دیدند.
به طور کلی روش های مختلفی مشاهده شد. همانطور که در جدول ۱ می بینیم ، تکنیک های مورد استفاده شامل بیز ساده (NB)، ماشین های یادگیری افراطی (EML)، Word2Vec، تجزیه مبتنی بر اسکلت، تقسیم بندی چند وضوح، Place2Vec، یادگیری عمیق مشترک (JDL) و بسیاری دیگر است. اگرچه مواردی وجود دارد که روش های مختلفی برای اهداف مشابه انتخاب شده است، مجموعه داده های مورد استفاده اغلب متفاوت بوده و مقایسه نتایج و نتیجه گیری ها را دشوار می کند.
۳٫ رویکرد پیشنهادی
با توجه به تحقیقات قبلی ما، همانطور که در مطالعه پیشرفته ارائه شد، بسیاری از رویکردهای مختلف برای طبقه بندی کاربری اراضی مشاهده شد. در حالی که بسیاری از آنها بر اساس تفسیر تصویر هستند، یک نگرانی بزرگ از این به دلیل هزینه های مربوطه ناشی می شود. علاوه بر زمانبر بودن این تکنیکها، گران هستند. اگرچه برخی از دانشمندان از داده های جمع سپاری در تحلیل های خود استفاده کرده اند، استفاده از این نوع داده ها معمولاً به عنوان مکملی برای تکنیک های تفسیر تصویر به کار گرفته می شود. با توجه به این نگرانی، ما رویکردی را بر اساس تنها دادههای POI آزمایش کردیم. به عنوان حقیقت اصلی، ما از یک مجموعه داده LULC در دسترس برای کل قلمرو اروپا استفاده کردیم.
۳٫۱٫ منطقه مطالعه
برای این مورد مطالعه، منطقه شهری لیسبون (LMA) انتخاب شد. LMA منطقه ای در پرتغال است که مرکز آن لیسبون، پایتخت و بزرگترین شهر این کشور است. LMA در ۳۰۱۵ کیلومتر مربع پراکنده است و حدود ۲٫۸ میلیون نفر جمعیت دارد که ۲۷ درصد از جمعیت پرتغال را تشکیل می دهد. تراکم جمعیت در این منطقه تقریباً ۹۳۲ اینچ در هر کیلومتر مربع است که بالاترین میزان در کشور است که حدود هشت برابر بیشتر از میانگین کشوری است. با پوشش ۱۸ شهرداری، همچنین بزرگترین منطقه شهری در کشور (دهمین منطقه بزرگ در اتحادیه اروپا) است.
۳٫۲٫ استخراج POI
همانطور که توسط سایر نویسندگان ذکر شده است، POI ها به صورت رایگان و به طور گسترده به صورت آنلاین در دسترس هستند، یا از طریق API ها یا خدمات دانلودی که توسط جوامع داده جمع آوری شده تامین می شوند. همچنین امکان دریافت داده های POI از LBSN وجود دارد. یک مثال، سرویسی است که توسط Facebook API ارائه میشود، که در آن میتوان جستجو را با توجه به مختصات مرکز و شعاع انجام داد. این شبکه اجتماعی گزینههای مختلفی از کیتهای توسعه نرمافزار (SDK) را برای تسهیل توسعه برنامههایی که میتوانند با سرویسهای API برای دریافت دادهها تعامل داشته باشند، فراهم میکند. کاربران می توانند حساب های خود را به عنوان توسعه دهندگان ثبت کنند و به آنها اجازه می دهد این نوع برنامه ها را ایجاد کنند.
برای این مطالعه، ما استفاده از دادههای POI موجود از مکانهای Facebook را انتخاب کردیم. هنگامی که یک شرکت صفحه ای در فیس بوک ایجاد می کند، LBSN به آن اجازه می دهد مختصاتی را اضافه کند که نشان دهنده موقعیت جغرافیایی آن است. اگر چنین مکانی اضافه شود، صفحه به عنوان یک POI با نام Facebook Place در دسترس خواهد بود. این نوع از POI از طریق یک سرویس API ارائه شده توسط شبکه اجتماعی نیز قابل دسترسی هستند.
برای دریافت خودکار داده های POI موجود در Facebook Places، نرم افزاری را توسعه دادیم. برای استفاده از API فیس بوک، ابتدا لازم بود مختصاتی را که در حین جستجو استفاده می شود، تعریف کنیم. نرم افزاری که ما توسعه دادیم برای محاسبه این نقاط با در نظر گرفتن چهار مختصات داده شده توسط کاربر استفاده شد که نشان دهنده حدود یک مستطیل پیش بینی شده بر روی منطقه ای است که جستجو انجام شده است. در مورد خاص LMA، جعبه مرزی اتخاذ شده از مختصات زیر تشکیل شده است:
-
شمال:
- ○
-
غرب: ۳۹٫۰۶۴۷۱۸۳۸, −۹٫۵۰۰۵۲۶۶۱
- ○
-
شرق: ۳۹٫۰۶۴۷۱۸۳۸, −۸٫۴۹۰۹۷۲۱۳
-
جنوب:
- ○
-
غرب: ۳۸٫۴۰۹۰۷۴۴۲، −۹٫۵۰۰۵۲۶۶۱
- ○
-
شرق: ۳۸٫۴۰۹۰۷۴۴۲, −۸٫۴۹۰۹۷۲۱۳
پس از ایجاد مجموعه مختصات، نقاط خارج از محدوده جغرافیایی منطقه مورد مطالعه را دور انداختیم. این را می توان با استفاده از یک GIS یا یک پایگاه داده مکانی انجام داد. با این حال، همانطور که در شکل ۱ نشان داده شده است، با توجه به محدودیت های این نوع جستجو، مختصات نیاز به رعایت فاصله از پیش تعریف شده دارند که منجر به مشکل همپوشانی شعاع ها می شود. در عمل، این بدان معنی است که در طول جستجو، همان POI می تواند در نتیجه درخواست های مختلف بازگردانده شود. ما این مشکل را با فیلتر کردن مجموعه داده نهایی با استفاده از شناسه منحصربفرد ارائه شده توسط Facebook برای هر POI حل کردیم.
نرم افزار ما مختصات تولید شده را در جدول پایگاه داده ذخیره می کند. شکل ۲ مراحل مربوط به فیلتر کردن این نقاط را نشان می دهد تا آنها را برای پردازش آماده کند. در ابتدا، مجموعه مختصات تولید شده با توجه به چهار پارامتر ارائه شده توسط کاربر، کل منطقه را پوشش می دهد. این را می توان در هنگام ایجاد یک لایه در نرم افزار GIS با استفاده از این نقاط مشاهده کرد. در این مطالعه، ما یک پرس و جوی ویژه را مستقیماً در پایگاه داده، بر اساس یک چند ضلعی ذخیره شده در یک جدول انجام دادیم که حاوی اطلاعات مربوط به محدوده جغرافیایی منطقه مورد مطالعه است. در نتیجه فقط امتیازات در محدوده حفظ شدند. اگرچه ما تصمیم گرفتیم که داده ها را مستقیماً با SQL دستکاری کنیم، اما ممکن است با انجام یک تقاطع از طریق یک برنامه GIS به راحتی به همین هدف دست پیدا کنیم.
پس از تولید مختصات جغرافیایی، برنامه توسعهیافته آنها را با جستجو از طریق سرویسی به نام «API جستجوی مکانها برای وب» پردازش کرد [ ۴۳ ، ۴۴]، ارائه شده توسط فیس بوک، برای جمع آوری داده ها. برای هر مختصات، Facebook API همه POI ها را در شعاع داده شده برگرداند. پس از بازگشت، داده های POI به دست آمده در یک جدول پایگاه داده ذخیره شدند. از آنجایی که هر درخواست چند ثانیه طول می کشد، زمان لازم برای جمع آوری داده ها به اندازه منطقه و در نتیجه تعداد مختصاتی که باید پردازش شوند بستگی دارد. پس از اتمام، لازم است مجموعه داده نهایی فیلتر شود تا POI های مکرر حذف شوند. یک بار دیگر، در این مورد، این کار با دستکاری جدول به طور مستقیم در پایگاه داده انجام شد. برای حل این مشکل خاص، ما فکر می کنیم با توجه به سادگی و کارایی آن، این بهترین رویکرد است.
داده های مورد استفاده در این کار در محدوده پروژه دیگری جمع آوری شد و به همین دلیل ابتدا برای کل کشور به دست آمد. با این حال، همانطور که قبلا توضیح داده شد، در تجربه ای که در اینجا ارائه می کنیم، تمرکز ما LMA بود. با استفاده از نرم افزاری که توسعه دادیم، ۱۷۱۱۷۷ POI توزیع شده در امتداد قاره پرتغال جمع آوری کردیم که از این تعداد ۱۷۷۷۷ در LMA قرار داشتند. با توجه به اینکه هر POI می تواند به بیش از یک دسته تعلق داشته باشد، مجموعه داده جمع آوری شده در مجموع ۲۴۱۴۴ نمونه را در منطقه مورد مطالعه ارائه می دهد که برای استخراج ویژگی ها برای آموزش مدل ها استفاده شده است.
آخرین مرحله در فرآیند جمع آوری POI، دریافت طبقه بندی مکان های فیس بوک است. ما این کار را از طریق API انجام دادیم، زیرا ساده و سریع بود. اگرچه هر POI جمعآوریشده دارای یک ویژگی است که حاوی فهرستی از همه دستههایی است که به آنها تعلق دارد، برخی عملیات باید انجام شود تا آن را به طبقهبندی بهدستآمده جداگانه پیوند دهیم. ما برخی دستکاری ها را با استفاده از SQL به منظور ایجاد این اتصالات انجام دادیم. این مرحله اختیاری است. با این حال، به شدت توصیه میشود زیرا فهرست دستههایی که با هر POI بازگردانده میشوند به خودی خود ساختار سلسله مراتبی ندارند، و به همین دلیل، زمانی که این طبقهبندی ناشناخته باشد، نتیجه تحلیل نهایی ممکن است چندان ارزشمند نباشد.
۳٫۳٫ داده های حقیقت پایه
پوشش زمین CORINE (CLC) [ ۴۵ ، ۴۶ ] اساساً مجموعه داده ای است که استفاده و پوشش مناطق جغرافیایی در اروپا را نشان می دهد. این به عنوان ابتکار آژانس محیط زیست اروپا، در مشارکت با کشورهای عضو ایجاد شد. به عنوان یک کارتوگرافی موضوعی، دادههای CLC عمدتاً با تفسیر تصویر، اغلب با استفاده از راهحلهای خودکار یا نیمه خودکار موجود در برنامههای GIS تولید میشوند. مجموعه داده را می توان در قالب شطرنجی یا برداری با حداقل واحد نقشه برداری (MMU) 25 هکتار (هکتار) برای پدیده های منطقه و حداقل عرض ۱۰۰ متر برای پدیده های خطی بارگیری کرد. با توجه به نامگذاری رسمی آن [ ۴۷]، داده های CLC در ۴۴ کلاس در سه سطح سلسله مراتبی تقسیم می شوند. برای اولین بار در سال ۱۹۹۰ منتشر شد و در سال های ۲۰۰۰، ۲۰۰۶، ۲۰۱۲ و ۲۰۱۸ به روز شد. برای تجزیه و تحلیل خود، ما از آخرین نسخه در قالب داده های برداری استفاده کردیم.
آماده سازی داده ها
ما یک روش مبتنی بر شبکه [ ۴۸ ] را برای نشان دادن قطعات زمین برای طبقه بندی اتخاذ کردیم. این روش شامل ایجاد سلول هایی است که به طور یکنواخت در منطقه مورد مطالعه توزیع شده اند. با استفاده از یک برنامه GIS، شبکه ای که در آن هر سلول ۲۵۰ متر طول و ۲۵۰ متر عرض دارد، به طور خودکار ساخته شد، همانطور که در شکل ۳ نشان داده شده است . هنگام ایجاد، شبکه یک مربع است که توسط چند ضلعی با اندازه انتخاب شده تشکیل شده است. برای اینکه فقط سلول ها در داخل منطقه مورد مطالعه باقی بمانند، عملیات تقاطع را انجام دادیم. شبکه به دست آمده در یک جدول پایگاه داده ذخیره شد. برای هر سلول، یک ویژگی فضایی که نشان دهنده مرکز آن است گنجانده شده است. این ویژگی هنگام ایجاد ویژگیها برای آموزش مدل پیشبینی ضروری است.
پس از ایجاد شبکه، کلاس LULC را برای هر سلول بر اساس داده های CORINE استخراج کردیم. فرض بر این بود که در هر قطعه زمین فقط یک طبقه وجود دارد. به عنوان مثال، اگر در یک سلول معین ۲۰٪ زمین تحت پوشش کلاس “۱۱۱” وجود داشته باشد. بافت شهری پیوسته» و در ۸۰ درصد باقیمانده، طبقه غالب «۱۱۲٫ بافت شهری ناپیوسته» را در نظر می گیریم که بیشتر فضا را نشان می دهد – یعنی آخرین. با این حال، قبل از استخراج کلاس غالب برای هر سلول، ساختار کلاس داده را سازماندهی کردیم، دو سطح را حفظ کردیم و امکان طبقهبندی آسان واحدها را بعداً فراهم کردیم. جدول ۲ساختار کلاس جدید را نشان می دهد. این عملیات با استفاده از ابزار “انحلال” موجود در تقریباً هر برنامه مدرن GIS انجام شد که امکان ادغام چند ضلعی ها از داده های برداری را فراهم می کند.
با توجه به ۱۵ کلاس به دست آمده از فرآیند سازماندهی مجدد که اعمال کردیم، پس از آماده سازی شبکه، ۸۱۲۳۸ سلول برای منطقه مورد مطالعه به دست آوردیم. هر سلول برای استخراج ویژگی ها در دسترس است تا به عنوان داده های آموزشی برای مدل ها استفاده شود. تعداد دقیق نمونه های مورد استفاده در هر سناریو در بخش ۴ توضیح داده شده است .
۳٫۴٫ استخراج ویژگی
ما چهار نوع مشخص از ویژگیها را بر اساس دستههای POI جمعآوریشده و سطوح مربوط به آنها استخراج کردیم که در طبقهبندی مکانهای فیسبوک از ۱ تا ۶ متغیر است [ ۴۹ ]. از طریق یک تحلیل اکتشافی، ما تصمیم گرفتیم بر روی تمام دستههای متعلق به سطوح ۲، ۳، ۴ و ۵ تمرکز کنیم، با توجه به اینکه سطح ۱ بسیار عمومی و سطح ۶ بسیار خاص است و فقط دستههای خدمات رستوران را ارائه میکند. جدول ۳ گروه های ویژگی استخراج شده را نشان می دهد.
به عنوان فاصله شعاع بهینه، ما ۲۵۰۰، ۵۰۰۰ و ۱۰۰۰۰ متر را مورد تجزیه و تحلیل قرار دادیم، جایی که آخرین مورد نشان داد که قادر به تولید بهترین مدل ها است. برای یافتن نسبت POI، این با محاسبه زیر برای هر دسته محاسبه شد: مقدار نقاط داخل شعاع، تقسیم بر مجموع POI های متعلق به دسته. با در نظر گرفتن تمام مجموعه ویژگی ها، برای همه سطوح، در مجموع ۵۹۲۸ ویژگی استخراج کردیم که ۵۰۰ مورد از آنها به گروه ۱، ۱۸۰۸ به گروه ۲، ۲۸۸۸ به گروه ۳، و ۷۳۲ مورد باقی مانده به گروه ۴ تعلق داشتند.
۳٫۵٫ انتخاب ویژگی
پس از استخراج ویژگی های POI، ابتدا از یک ماتریس همبستگی برای تجزیه و تحلیل ارتباط هر نوع ویژگی استفاده کردیم. ما متوجه شدیم که ویژگی های متعلق به گروه ۲ همبستگی بسیار پایینی با کلاس های LULC نشان می دهند. به همین دلیل، ما این ویژگی ها را کنار گذاشتیم. با توجه به ویژگیهای گروه ۴، تأیید کردیم که آنها تقریباً مشابه ویژگیهای متعلق به گروه ۳ هستند. از آنجایی که نسبت POI نیاز به توان محاسباتی بیشتری برای محاسبه دارد، در مقایسه با مقدار آنها در یک شعاع سلول معین، تصمیم گرفتیم برای حفظ گروه ۳ به جای ۴٫
همانطور که قصد داشتیم پتانسیل معیارهای استخراج شده از داده های POI برای طبقه بندی LULC را بررسی کنیم، با در نظر گرفتن ۳۳۸۸ ویژگی باقیمانده، برای هر سناریو، از یک روش رتبه بندی [ ۵۰ ] برای انتخاب با ارزش ترین مجموعه ویژگی استفاده کردیم. معیارهای مختلفی از جمله بهره اطلاعات، نسبت سود و شاخص جینی در این فرآیند مورد آزمایش قرار گرفتند. ما این رویکرد را انتخاب کردیم زیرا در مقایسه با روشهای دیگر معمولاً سریعتر است و منابع کمتری مصرف میکند. با استفاده از این تکنیک، مجموعههای ویژگیهای مختلفی را انتخاب کردیم که برای آزمونهای طبقهبندی به کار گرفته شدند. تعداد مشخصه های انتخاب شده در هر سناریو در بخش ۴ ارائه شده است . فهرستی از مجموعههای ویژگیهای مورد استفاده بهصورت آنلاین در http://tiny.cc/9eq8rz موجود است .
۳٫۶٫ طبقه بندی
همانطور که در بخش پیشرفته ارائه شد، در میان بسیاری از مطالعات علمی مختلف که مورد تجزیه و تحلیل قرار دادیم، استفاده از تکنیک های مختلف مشاهده شد. برخی از آنها برای آماده سازی و پیش پردازش داده ها و برخی دیگر برای کارهای طبقه بندی استفاده می شوند. با این حال، برای ایجاد یک مدل قادر به طبقهبندی کاربری زمین با استفاده از ویژگیهای عددی، ما معتقدیم که میتوان با موفقیت از یک روش قدرتمند استفاده کرد که معمولاً در این زمینه دیده نمیشود، یعنی یک شبکه عصبی مصنوعی (ANN). ما سناریوهای مختلف را با استفاده از ANN آزمایش کردیم، همانطور که در بخش بعدی ارائه شد. جزئیات پارامترسازی در جدول ۴ نشان داده شده است. به عنوان معیارهای ارزیابی، موارد زیر اتخاذ شد: دقت، امتیاز F، کاپا، دقت و یادآوری. برای آموزش مدلها، ما یک تکنیک اعتبارسنجی متقاطع ۱۰ برابری را اتخاذ کردیم. RapidMiner Studio [ ۵۱ ] برای تستهای طبقهبندی که ما انجام دادیم مورد استفاده قرار گرفت و جزئیات پیادهسازی الگوریتم ANN در این نرمافزار را میتوان در مستندات رسمی مشاهده کرد [ ۵۲ ].
۴٫ نتایج و بحث
همانطور که در یک تحلیل اکتشافی که قبلا انجام شده بود متوجه شدیم، یک الگوی مجاورت جغرافیایی بین کلاسهای «۲٫ مناطق کشاورزی»، «۳٫ مناطق جنگلی و نیمه طبیعی» و «۱۱۲٫ به نظر می رسد بافت شهری ناپیوسته وجود داشته باشد. با توجه به این شواهد، برخی آزمایشهای اولیه انجام شد (در اینجا ارائه نشده است)، که در آنها متوجه شدیم که مدلهای تولید شده در هنگام استفاده از این سه کلاس با هم تمایل به ارائه عملکرد پایین دارند. به همین دلیل، در اکثر آزمایشهایی که در زیر به آنها پرداخته میشود، تصمیم گرفتیم این کلاسها را جداگانه در نظر بگیریم.
در اولین آزمون طبقه بندی، از یک مجموعه داده حاوی ۱۴۴ ویژگی استفاده کردیم. جدول ۵ نتایج ارزیابی مدل را نشان می دهد. برای این تجربه، ما چهار کلاس مجزا را به عنوان هدف نهایی برای طبقهبندی انتخاب کردیم: (۱) «۲٫ مناطق کشاورزی»؛ (۲) «۱۱۱٫ بافت شهری پیوسته»؛ (۳) «۱۱۲٫ بافت شهری ناپیوسته»؛ (۴) «۱۲۱٫ واحدهای صنعتی یا تجاری و تأسیسات عمومی». این آموزش با استفاده از ۲۶۶۷ مثال از کلاس ۱۲۱ و ۳۰۰۰ مثال برای هر یک از موارد باقی مانده ساخته شده است. همانطور که مشاهده می شود، دقت و فراخوانی کلاس ۱۱۲ هر دو در مقایسه با سایرین پایین تر است، در حالی که به نظر می رسد مدل قادر به تشخیص بهتر کلاس ۲ در بین همه آنها باشد.
همانند آزمایش قبلی، آزمایشی را نیز بر اساس مدلی که با استفاده از چهار کلاس آموزش داده شده بود، انجام دادیم. با این حال، در این آزمون از کلاس «۳» استفاده کردیم. مناطق جنگلی و نیمه طبیعی» به جای کلاس «۲». از طریق روش انتخاب خودکار که قبلا توضیح داده شد، ما ۱۵۷ ویژگی را انتخاب کردیم. نتایج به دست آمده در جدول ۶ قابل مشاهده است . آنها نشان می دهند که به طور کلی، مدل تقریباً هیچ تفاوتی در مقایسه با مدل ایجاد شده در آزمون قبلی نشان نمی دهد، اگرچه ما از همان ۳۰۰۰ مثال از هر کلاس استفاده کردیم، به جز کلاس ۱۲۱، که برای آن از ۲۶۶۷ مثال استفاده کردیم.
در آزمایش سوم که انجام شد، از کلاسهای ۱۱۱ و ۱۲۱ نیز استفاده کردیم. به منظور بررسی اینکه یک مدل تا چه اندازه میتواند جنگلها، مناطق نیمه طبیعی و زمینهای کشاورزی را از فضاهای شهری متراکم و مناطق صنعتی متمایز کند، تصمیم گرفتیم کلاسهای ۲ را در نظر بگیریم. و ۳ برای آموزش مدل. همانند آزمایشهایی که قبلاً انجام شد، مجموعهای از دادههای متشکل از ۱۱۶۶۷ نمونه را نیز به کار بردیم، اگرچه حاوی ۱۴۲ ویژگی است – یعنی ۱۵ مورد کمتر از قبل. با توجه به اطلاعات موجود در جدول ۷ ، ارزیابی مدل نشان می دهد که در مناطق شهری متراکم، طبقه بندی کننده به نتایج بهتری نسبت به سایر طبقات می رسد.
با جایگزینی کلاس ۱۲۱ با کلاس ۱۱۲، ما یک مدل جدید را آموزش دادیم، که به یک نمونه فرعی متشکل از ۴۰۰۰ نمونه از هر کلاس تکرار میشود، به جز یکی که نشان دهنده بستههای بافت شهری پیوسته است، که فقط ۳۰۴۳ نمونه برای آن موجود بود. مجموعه داده مذکور دارای ۱۵۸ ویژگی است و از طریق ارزیابی مدل به نتایج مندرج در جدول ۸ دست یافتیم .
به منظور تکمیل آزمایشهای ارائهشده، در یک سناریوی جدید با در نظر گرفتن ۲۲۱ ویژگی، مدلی را آزمایش کردیم که با استفاده از سه کلاس که معتقد بودیم برای طبقهبندی کاربری زمین بسیار ارزشمند است، آموزش داده شد: (۱) «۲٫ مناطق کشاورزی»؛ (۲) «۱۱۱٫ بافت شهری پیوسته»؛ (۳) «واحدهای صنعتی یا تجاری و تأسیسات عمومی». نتایج را می توان در جدول ۹ مشاهده کرد . برای این تست خاص، از ۴۰۰۰ مثال از کلاس ۲، ۳۰۴۳ از کلاس ۱۱۱ و ۲۶۶۷ از کلاس ۱۲۱ استفاده کردیم.
با توجه به اینکه کلاس های ۱۱۱ و ۱۱۲ هر دو از کلاس “۱٫۱” هستند. بافت شهری»، مدلی ایجاد کردیم که نمونههای این کلاسها را ادغام میکند. با استفاده از مجموعه داده ای حاوی ۹۶ ویژگی و ۴۰۰۰ نمونه از کلاس جدید، علاوه بر ۳۰۴۳ مورد دیگر از کلاس ۱۱۱ و ۲۶۶۷ از ۱۲۱، نتایج ارائه شده در جدول ۱۰ را به دست آوردیم .
آخرین آزمایش ما بر اساس یک مجموعه داده حاوی ۹۳ ویژگی بود. این مدل با ۴۰۰۰ نمونه از کلاس های ۱۱۱ و ۱۱۲ با هم آموزش داده شد. ۴۰۰۰ نمونه دیگر از کلاسهای ۲ و ۳ به یک کلاس جدید و ۲۶۶۷ نمونه، طبق معمول، از کلاس ۱۲۱ نگاشت شدند. ما تصمیم گرفتیم نمونههایی را که جنگلها و مناطق نیمه طبیعی را نشان میدهند به آنهایی که مناطق کشاورزی را محدود میکنند، به دلیل شباهت مشاهده شده بین اینها بپیوندیم. دو کلاس از طریق یک تحلیل اکتشافی که ما انجام دادیم. نتایج به دست آمده در جدول ۱۱ ارائه شده است .
هنگام تجزیه و تحلیل نتایج به دست آمده، می توان برخی از مشاهدات را مورد بحث قرار داد. با در نظر گرفتن امتیاز F به ازای هر کلاس، میتوانیم ببینیم که، به طور کلی، مدلها تمایل به نشان دادن نتایج پایینتری برای طبقهبندی نمونههایی دارند که مناطق شهری ناپیوسته را نشان میدهند. در واقع، ما میتوانیم این را با بررسی یک ماتریس سردرگمی تأیید کنیم، جایی که این قطعات زمین اغلب به اشتباه طبقهبندی میشوند. همانطور که در جدول ۱۲ ارائه شده استمدل اغلب تمایل دارد کلاس ۱۱۲ را به عنوان ۲ یا ۱۱۱ پیش بینی کند، در حالی که نمونه های زیادی از قطعات کشاورزی را نیز به عنوان مناطق شهری ناپیوسته طبقه بندی می کند. با این حال، هنگام تجزیه و تحلیل نتایج حاصل از ارزیابی مدل سناریوی ۳، می توان مشاهده کرد که هنگام استفاده از کلاس های ۲، ۳، ۱۱۱ و ۱۲۱، زمین های کشاورزی و قطعات جنگلی آنهایی هستند که کمترین امتیاز F را ارائه می دهند. با بررسی ماتریس های سردرگمی تولید شده برای هر سناریو، متوجه شدیم که این کلاس ها اغلب با یکدیگر اشتباه گرفته می شوند.
برای تلاش برای یافتن دلیل اصلی طبقه بندی نادرست جنگل ها، زمین های کشاورزی و مناطق شهری ناپیوسته در بین خود، یک تحلیل اکتشافی انجام دادیم. همانطور که در شکل ۴نشان می دهد که نزدیکی جغرافیایی بین این طبقات وجود دارد. با توجه به اینکه ویژگی های استفاده شده در برخی موارد نشان دهنده فاصله بین هر مرکز و نزدیکترین نقطه نقطه هر دسته و در موارد دیگر، میزان نقاط هر دسته در شعاع هر مرکز سلولی است، می توان مشکوک شد که از آنجایی که بسیاری از مقولهها اغلب در مناطق شهری متراکم قرار دارند، فاصله از سلولهایی که این سه کلاس و POI را نشان میدهند نیز میتواند مشابه باشد. به عبارت دیگر، این بدان معناست که سلولهایی که این سه کلاس را نشان میدهند، اغلب دور از بسیاری از دستههای POI دیگر قرار دارند. به دنبال این ایده، ما همچنین فکر میکنیم که میزان POI از اکثر دستهها میتواند در این زمینهها کمتر باشد، و تمایز بین آنها را با استفاده از ویژگیهایی که در اینجا انتخاب شدهاند دشوار میسازد.
۵٫ نتیجه گیری و کار آینده
در ابتدا در این کار به منظور بررسی مجموعه ای از آثار مرتبط با تحلیل فضای جغرافیایی، نظرسنجی انجام دادیم. از طریق تجزیه و تحلیل سیستماتیک، انواع داده ها و روش های اصلی و همچنین استفاده از آنها در این زمینه را برجسته و مورد بحث قرار داده ایم. از تجزیه و تحلیل پیشرفته، ما پتانسیل نوع خاصی از داده های جمع سپاری را برای طبقه بندی کاربری زمین، یعنی POI ها، بررسی کردیم. ما منابع موجود این اطلاعات را به دقت مطالعه کردیم تا تصمیم بگیریم که کدام یک برای تحلیل ما مناسبتر است. بر اساس سرویسی که به صورت آنلاین در دسترس است، ما یک برنامه کاربردی برای جمع آوری خودکار POI برای منطقه مورد مطالعه خود ایجاد کردیم. علاوه بر این، برای آماده کردن دادهها برای آزمایشهای خود، برخی از درمانهای داده را اعمال کردیم.
بر اساس دادههای POI، ما انواع مختلفی از ویژگیها را استخراج و تجزیه و تحلیل کردیم تا آنهایی را انتخاب کنیم که ارتباط بیشتری برای استفاده داشته باشند. با توجه به این واقعیت که ما تعداد زیادی ویژگی داشتیم، تکنیکی را به کار گرفتیم که در ادبیات به خوبی تثبیت شده بود تا به طور خودکار مناسب ترین آنها را برای هر آزمایشی که انجام دادیم رتبه بندی کنیم. برای طبقه بندی کاربری زمین، ما یک روش مبتنی بر شبکه را بر اساس یک مجموعه داده حقیقت زمینی بسیار قابل اعتماد انتخاب کردیم. ما سناریوهای مختلفی را برای تست های خود تعریف کردیم و یک الگوریتم قدرتمند برای تجزیه و تحلیل طبقه بندی در هنگام استفاده از ویژگی های عددی برای همه آنها اتخاذ کردیم.
اگرچه روش مبتنی بر شبکه ای که ما به عنوان بخشی از روشی که برای تهیه داده ها استفاده کردیم، قبلاً در ادبیات پیشنهاد شده بود، می توان تأکید کرد که در مطالعه ما، تفاوت هایی با تکنیک اصلی وجود دارد. اول، کار ما بر اساس داده های برداری بود به جای داده های شطرنجی. ما معتقدیم که دادههای برداری برای راهحلهای خودکار یا نیمه خودکار اعمال شده برای تحلیل جغرافیایی کارآمدتر هستند، زیرا میتوانند اطلاعات بیشتری مربوط به هر قطعه زمین را جمعآوری کنند و همچنین میتوانند به راحتی مستقیماً در یک پایگاه داده ذخیره و دستکاری شوند. علاوه بر این، ویژگیهایی که ما اتخاذ کردیم تا حدی با ویژگیهایی که در زمان پیشنهاد روش استفاده میشد متفاوت است. کار ما شواهد محکمی را ارائه می دهد که این روش شناسی به خوبی کار می کند، و ما این تفاوت هایی را که اجرا کرده ایم به عنوان سهم خود در پیشرفت هنر می بینیم.
با استفاده از یک شبکه عصبی مصنوعی و دادههای مبتنی بر POI، از طریق سناریوهای طبقهبندی مختلف، به مقادیر بیش از ۹۰ درصد برای دقت و امتیاز F در موفقترین مورد در اینجا دست یافتیم. به طور کلی، برای اکثر تجربیات، مقادیر این معیارها نزدیک به ۸۰٪ است که ثابت می کند POI ها پتانسیل پیشنهاد به عنوان یک نوع داده برای طبقه بندی کاربری زمین را دارند. به عنوان یکی از رایجترین انواع دادههای جمعسپاری، آنها بهطور گسترده و رایگان برای بسیاری از کشورها در دسترس هستند و میتوانند به تنهایی یا در صورت ترکیب با انواع دادههای دیگر، کمکهای مرتبطی را ارائه دهند، در نتیجه نتایج در مطالعات مربوط به توصیف فضاهای جغرافیایی را بهبود بخشند.
در مورد مهندسی ویژگی، در این کار، چهار گروه مختلف از ویژگی ها را استخراج و تحلیل کردیم. تأیید شد که تنها دو مورد از آنها برای طبقه بندی کاربری اراضی مفید هستند. اگرچه ما تعداد قابل توجهی از ویژگی ها را ایجاد کردیم، آنها معیارهای خاصی را نشان می دهند که از داده های POI استخراج شده است. بنابراین، بهعنوان پیشنهادی برای کار آینده، ما توصیه میکنیم پتانسیل معیارهای جدید – به عنوان مثال، شباهت معنایی بین POIها – را با توجه به توصیفهای متنی آنها، که میتواند به عنوان ویژگیهایی برای آموزش مدلها اضافه شود، تجزیه و تحلیل کنید، در نتیجه احتمالاً نتایج بهتری ارائه میشود. استفاده از شبکه های عصبی عمیق برای پردازش زبان طبیعی (NLP) به عنوان یک ابزار قدرتمند برای استخراج ویژگی ها از متون نشان داده شده است [ ۱۳ ، ۱۹]]. اتخاذ چنین شبکه های عصبی عمیق در رویکرد ما می تواند عملکرد طبقه بندی کاربری زمین را بهبود بخشد.
همانطور که در تحلیل های پیشرفته بیان شد، داده های POI، به عنوان یکی از رایج ترین انواع داده های جمع سپاری، به طور گسترده در سرویس های API و مخازن آنلاین در دسترس هستند. با این حال، مانند بسیاری از مجموعه داده های تولید شده توسط تعداد زیادی از کاربران یا داوطلبان، یافتن نویز زیادی در این مجموعه داده ها بسیار رایج است. به همین دلیل، ما همچنین به عنوان کار آینده، ارزیابی کیفیت دادههای POI جمعسپاری شده از منابع مختلف را پیشنهاد میکنیم. ما متوجه شده ایم که استفاده از مجموعه داده های قابل اعتماد کلید دستیابی به نتایج خوب در بسیاری از موارد است.
در این کار، ما پتانسیل دادههای POI را برای توصیف فضاهای جغرافیایی-یعنی طبقهبندی LULC- بررسی کردیم. در تجزیه و تحلیلی که انجام دادیم، تنها یک منبع را برای این نوع مجموعه دادهها انتخاب کردیم. بنابراین، برای کار آینده، ما همچنین بررسی تکنیکهایی را پیشنهاد میکنیم که میتوانند برای ادغام POIهای جمعآوریشده از منابع مختلف به منظور غنیسازی دادههای اضافی اتخاذ شوند. ما بر این باوریم که استفاده از مجموعهای از دادهها تا حد امکان کامل میتواند به ایجاد مدلهای کارآمد کمک کند.
منابع
- سوسنتی، ر. سوتومو، اس. بوچوری، آی. بروتوسوناریو، رشد هوشمند PM، شهر هوشمند و تراکم: در جستجوی شاخص مناسب برای تراکم مسکونی در اندونزی. Procedia-Soc. رفتار علمی ۲۰۱۶ ، ۲۲۷ ، ۱۹۴-۲۰۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لیو، ایکس. او، جی. یائو، ی. ژانگ، جی. لیانگ، اچ. وانگ، اچ. Hong, Y. طبقه بندی کاربری زمین شهری با ادغام داده های سنجش از دور و رسانه های اجتماعی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۷ ، ۳۱ ، ۱۶۷۵-۱۶۹۶٫ [ Google Scholar ] [ CrossRef ]
- ژانگ، ی. لی، کیو. هوانگ، اچ. وو، دبلیو. دو، X. وانگ، اچ. استفاده ترکیبی از سنجش از دور و داده های سنجش اجتماعی در نقشه برداری کاربری زمین شهری با دانه بندی ریز: مطالعه موردی در پکن، چین. Remote Sens. ۲۰۱۷ , ۹ , ۸۶۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ژانگ، ایکس. دو، اس. وانگ، Q. شناخت معنایی سلسله مراتبی برای مناطق عملکردی شهری با تصاویر ماهواره ای VHR و داده های POI. ISPRS J. Photogramm. Remote Sens. ۲۰۱۷ ، ۱۳۲ ، ۱۷۰-۱۸۴٫ [ Google Scholar ] [ CrossRef ]
- NOAA. وب سایت خدمات ملی اقیانوس. تفاوت بین پوشش زمین و کاربری زمین چیست؟ ۲۰۱۸٫ در دسترس آنلاین: https://oceanservice.noaa.gov/facts/lclu.html (در ۱۳ مارس ۲۰۱۹ قابل دسترسی است).
- گائو، اس. یانوویچ، ک. کوکللیس، اچ. استخراج مناطق عملکردی شهری از نقاط مورد علاقه و فعالیت های انسانی در شبکه های اجتماعی مبتنی بر مکان. ترانس. GIS ۲۰۱۷ ، ۲۱ ، ۴۴۶-۴۶۷٫ [ Google Scholar ] [ CrossRef ]
- بلاشکه، تی. هی، GJ; کلی، NM; لانگ، اس. هافمن، پی. آدینک، EA؛ فیتوسا، RQ; ون در میر، اف. ون در ورف، اچ. ون کویلی، اف. و همکاران تجزیه و تحلیل تصویر مبتنی بر شی جغرافیایی – به سوی یک الگوی جدید. ISPRS J. Photogramm. Remote Sens. ۲۰۱۴ ، ۸۷ ، ۱۸۰-۱۹۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- Terroso-Saenz، F. Muñoz، A. کشف کاربری زمین بر اساس طبقه بندی اطلاعات جغرافیایی داوطلبانه. سیستم خبره Appl. ۲۰۲۰ , ۱۴۰ , ۱۱۲۸۹۲٫ [ Google Scholar ] [ CrossRef ]
- زینگ، اچ. Meng, Y. ادغام معیارهای چشم انداز و ویژگی های اجتماعی-اقتصادی برای طبقه بندی منطقه عملکردی شهری. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۸ ، ۷۲ ، ۱۳۴-۱۴۵٫ [ Google Scholar ] [ CrossRef ]
- برنان، آر. Webster، TL طبقه بندی پوشش زمین شی گرا سطوح مشتق شده از لیدار. می توان. J. Remote Sens. ۲۰۰۶ ، ۳۲ ، ۱۶۲-۱۷۲٫ [ Google Scholar ] [ CrossRef ]
- گونگ، بی. من، جی. Mountrakis، G. یک رویکرد شبکه ایمنی مصنوعی برای طبقهبندی کاربری زمین/پوشش زمین با چند حسگر. سنسور از راه دور محیط. ۲۰۱۱ ، ۱۱۵ ، ۶۰۰-۶۱۴٫ [ Google Scholar ] [ CrossRef ]
- چی، ز. بله، پیش از این؛ لی، ایکس. Lin, Z. یک الگوریتم جدید برای طبقه بندی کاربری و پوشش زمین با استفاده از داده های SAR قطبی RADARSAT-2. سنسور از راه دور محیط. ۲۰۱۲ ، ۱۱۸ ، ۲۱-۳۹٫ [ Google Scholar ] [ CrossRef ]
- یائو، ی. لی، ایکس. لیو، ایکس. لیو، پی. لیانگ، ز. ژانگ، جی. Mai، K. سنجش توزیع فضایی کاربری زمین شهری با ادغام نقاط مورد علاقه و مدل Google Word2Vec. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۷ ، ۳۱ ، ۸۲۵-۸۴۸٫ [ Google Scholar ] [ CrossRef ]
- ژانگ، ایکس. دو، اس. وانگ، کیو. یکپارچهسازی طبقهبندی از پایین به بالا و بازخورد از بالا به پایین برای بهبود نقشهبرداری پوشش زمین شهری و منطقه عملکردی. سنسور از راه دور محیط. ۲۰۱۸ ، ۲۱۲ ، ۲۳۱-۲۴۸٫ [ Google Scholar ] [ CrossRef ]
- هوانگ، بی. ژائو، بی. Song، Y. نقشهبرداری کاربری زمین شهری با استفاده از یک شبکه عصبی پیچیده عمیق با تصاویر سنجش از دور چندطیفی با وضوح فضایی بالا. سنسور از راه دور محیط. ۲۰۱۸ ، ۲۱۴ ، ۷۳-۸۶٫ [ Google Scholar ] [ CrossRef ]
- Durduran، SS طبقه بندی خودکار پوشش زمین با وضوح بالا با استفاده از یک روش وزن دهی داده جدید: ترکیبی از الگوریتم خوشه بندی k-means و اقدامات گرایش مرکزی (KMC-CTM). Appl. محاسبات نرم. J. ۲۰۱۵ ، ۳۵ ، ۱۳۶-۱۵۰٫ [ Google Scholar ] [ CrossRef ]
- دنگ، ز. زو، ایکس. او، س. Tang, L. طبقه بندی کاربری/پوشش زمین با استفاده از تصاویر سری زمانی Landsat 8 در یک منطقه به شدت شهری. Adv. Sp. Res. ۲۰۱۹ ، ۶۳ ، ۲۱۴۴-۲۱۵۴٫ [ Google Scholar ] [ CrossRef ]
- ژونگ، ی. زو، س. Zhang، L. طبقه بندی صحنه بر اساس مدل موضوع احتمالی ترکیب چند ویژگی برای تصاویر سنجش از دور با وضوح فضایی بالا. IEEE Trans. Geosci. Remote Sens. ۲۰۱۵ , ۵۳ , ۶۲۰۷–۶۲۲۲٫ [ Google Scholar ] [ CrossRef ]
- ژای، دبلیو. بای، ایکس. شی، ی. هان، ی. پنگ، Z.-R. Gu, C. Beyond Word2vec: رویکردی برای استخراج و شناسایی منطقه عملکردی شهری با ترکیب Place2vec و POI. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۹ ، ۷۴ ، ۱-۱۲٫ [ Google Scholar ] [ CrossRef ]
- García-Palomares, JC; Salas-Olmedo، MH; مویا گومز، بی. Condeço-Melhorado، A. گوتیرز، جی. پویایی شهر از طریق توییتر: روابط بین کاربری زمین و جمعیت شناسی مکانی و زمانی. شهرها ۲۰۱۸ ، ۷۲ ، ۳۱۰–۳۱۹٫ [ Google Scholar ] [ CrossRef ]
- یوان، جی. ژنگ، ی. Xie, X. کشف مناطقی از عملکردهای مختلف در یک شهر با استفاده از تحرک انسان و POI. SIGKDD بین المللی Conf. بدانید. کشف کنید. حداقل داده ۲۰۱۲ . [ Google Scholar ] [ CrossRef ]
- لیو، ایکس. نیو، ن. لیو، XJ; جین، اچ. او، جی پی؛ جیائو، ال.ام. Liu, YL مشخص کردن ساختمانهای با کاربری مختلط بر اساس دادههای بزرگ چند منبعی. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۸ ، ۳۲ ، ۷۳۸-۷۵۶٫ [ Google Scholar ]
- جندرایک، ام. بالز، تی. مک کلور، SC; لیائو، ام. قرار دادن مردم در تصویر: ترکیب دادههای رسانههای اجتماعی بزرگ مبتنی بر مکان و تصاویر سنجش از راه دور برای بهبود اطلاعات شهری بافتی در شانگهای. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۷ ، ۶۲ ، ۹۹-۱۱۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لنسلی، جی. Longley، PA جغرافیای موضوعات توییتر در لندن. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۶ ، ۵۸ ، ۸۵-۹۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- چنگ، ز. کاورلی، جی. تره فرنگی.؛ Sui، DZ میلیونها ردپا را در خدمات اشتراکگذاری مکان کاوش میکند. بین المللی Conf. وبلاگ ها Soc. رسانه ۲۰۱۱ ، ۲۰۱۰ ، ۸۱-۸۸٫ [ Google Scholar ]
- ارسنجانیا، جی جی; Vaz, E. ارزیابی یک رویکرد نقشه برداری مشترک برای کاوش الگوهای کاربری زمین برای چندین کلانشهر اروپایی. بین المللی J. Appl. زمین Obs. Geoinf. ۲۰۱۵ ، ۳۵ ، ۳۲۹-۳۳۷٫ [ Google Scholar ] [ CrossRef ]
- یوان، نیوجرسی؛ ژنگ، ی. Xie، X. وانگ، ی. ژنگ، ک. Xiong، H. کشف مناطق عملکردی شهری با استفاده از مسیرهای فعالیت نهفته. IEEE Trans. بدانید. مهندسی داده ۲۰۱۵ ، ۲۷ ، ۷۱۲-۷۲۵٫ [ Google Scholar ] [ CrossRef ]
- گونگ، ال. لیو، ایکس. وو، ال. لیو، ی. استنباط اهداف سفر و کشف الگوهای سفر از دادههای مسیر تاکسی. کارتوگر. Geogr. Inf. علمی ۲۰۱۶ ، ۴۳ ، ۱۰۳-۱۱۴٫ [ Google Scholar ] [ CrossRef ]
- Trevino، A. مقدمه ای بر K-Means Clustering. Oracle + DataScience.com. ۲۰۱۶٫ در دسترس آنلاین: https://www.datascience.com/blog/k-means-clustering (در ۲۰ مارس ۲۰۱۹ قابل دسترسی است).
- جیانگ، اس. آلوز، آ. رودریگز، اف. فریرا، جی. Pereira، FC داده های نقطه مورد علاقه استخراج از شبکه های اجتماعی برای طبقه بندی و تفکیک کاربری زمین شهری. محاسبه کنید. محیط زیست سیستم شهری ۲۰۱۵ ، ۵۳ ، ۳۶-۴۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- پاتل، اس. فصل ۲: SVM (ماشین بردار پشتیبانی) – نظریه. Machine Learning 101. 2017. موجود به صورت آنلاین: https://medium.com/machine-learning-101/chapter-2-svm-support-vector-machine-theory-f0812effc72 (در ۱۰ ژوئن ۲۰۱۹ قابل دسترسی است).
- Sotiropoulos، DN; Tsihrintzis، پارادایم های یادگیری ماشین GA. در پارادایم های یادگیری ماشینی: سیستم های ایمنی مصنوعی و کاربردهای آنها در شخصی سازی نرم افزار . انتشارات بین المللی اسپرینگر: چم، سوئیس، ۲۰۱۷; صص ۱۰۷-۱۲۹٫ [ Google Scholar ]
- ژانگ، ایکس. Du، S. یک مدل مخلوط دیریکله خطی برای تجزیه صحنه ها: کاربرد برای تجزیه و تحلیل منطقه بندی های عملکردی شهری. سنسور از راه دور محیط. ۲۰۱۵ ، ۱۶۹ ، ۳۷-۴۹٫ [ Google Scholar ] [ CrossRef ]
- لیلبرگ، جی. زو، ی. Zhang، Y. از ماشینهای برداری و word2vec برای طبقهبندی متن با ویژگیهای معنایی پشتیبانی کنید. در مجموعه مقالات چهاردهمین کنفرانس بین المللی IEEE 2015 در زمینه انفورماتیک شناختی و محاسبات شناختی (ICCI*CC)، پکن، چین، ۶ تا ۸ ژوئیه ۲۰۱۵؛ صص ۱۳۶-۱۴۰٫ [ Google Scholar ]
- ژانگ، ال. ژانگ، ال. Du, B. یادگیری عمیق برای داده های سنجش از راه دور: یک آموزش فنی در مورد وضعیت هنر. IEEE Geosci. سنسور از راه دور Mag. ۲۰۱۶ ، ۴ ، ۲۲-۴۰٫ [ Google Scholar ] [ CrossRef ]
- ژان، ایکس. اوکوسوری، اس وی؛ Zhu, F. استنباط کاربری زمین شهری با استفاده از دادههای ورود به شبکه اجتماعی در مقیاس بزرگ. شبکه تف کردن اقتصاد ۲۰۱۴ ، ۱۴ ، ۶۴۷-۶۶۷٫ [ Google Scholar ] [ CrossRef ]
- فریاس مارتینز، وی. فریاس مارتینز، E. خوشه بندی طیفی برای سنجش کاربری زمین شهری با استفاده از فعالیت توییتر. مهندس Appl. آرتیف. هوشمند ۲۰۱۴ ، ۳۵ ، ۲۳۷-۲۴۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- یائو، ی. لیانگ، اچ. لی، ایکس. ژانگ، جی. او، جی. با ادغام Google Tensorflow و مدلهای طبقهبندی صحنه، الگوهای کاربری زمین شهری را حس میکند. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. Sci.-ISPRS Arch. ۲۰۱۷ ، ۴۲ ، ۹۸۱-۹۸۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- آهنگ، جی. لین، تی. لی، ایکس. پریشچپوف، نقشه برداری AV مناطق عملکردی شهری با ادغام تصاویر سنجش از دور با وضوح بسیار بالا و نقاط مورد علاقه: مطالعه موردی Xiamen، چین. Remote Sens. ۲۰۱۸ ، ۱۰ ، ۱۷۳۷٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- ژانگ، سی. سارجنت، آی. پان، X. لی، اچ. گاردینر، آ. هار، جی. اتکینسون، پی. یک شبکه عصبی کانولوشنال مبتنی بر شی (OCNN) برای طبقهبندی کاربری زمین شهری. سنسور از راه دور محیط. ۲۰۱۸ ، ۲۱۶ ، ۵۷-۷۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فلورس، ای. زرتیا، م. Scharcanski, J. دیکشنری های ویژگی های عمیق برای طبقه بندی صحنه استفاده از زمین تصاویر با وضوح فضایی بسیار بالا. تشخیص الگو ۲۰۱۹ ، ۸۹ ، ۳۲-۴۴٫ [ Google Scholar ] [ CrossRef ]
- ژانگ، سی. سارجنت، آی. پان، X. لی، اچ. گاردینر، آ. هار، جی. اتکینسون، پی. یادگیری عمیق مشترک برای طبقه بندی پوشش زمین و کاربری زمین. سنسور از راه دور محیط. ۲۰۱۹ ، ۲۲۱ ، ۱۷۳-۱۸۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فیس بوک. API جستجوی مکانها برای وب. در دسترس آنلاین: https://developers.facebook.com/docs/places/web/search/ (در ۸ ژوئیه ۲۰۲۰ قابل دسترسی است).
- فیس بوک. اطلاعات مکان در دسترس آنلاین: https://developers.facebook.com/docs/graph-api/reference/place-information (در ۸ ژوئیه ۲۰۲۰ قابل دسترسی است).
- کوپرنیک. پوشش زمین CORINE. در دسترس آنلاین: https://land.copernicus.eu/pan-european/corine-land-cover (در ۲ مارس ۲۰۲۰ قابل دسترسی است).
- کوپرنیک. CLC 2018. در دسترس آنلاین: https://land.copernicus.eu/pan-european/corine-land-cover/clc2018?tab=metadata (در ۸ ژوئیه ۲۰۲۰ قابل دسترسی است).
- کوزترا، بی. بوتنر، جی. هازو، جی. آرنولد، اس. دستورالعمل های نامگذاری مصور CLC را به روز کرد. ۲۰۱۹٫ [ Google Scholar ]
- Calegari، GR; کارلینو، ای. پرونی، دی. Celino، I. استخراج کاربری زمین شهری از دادههای مکانی باز مرتبط. ISPRS Int. J. Geo-Inf. ۲۰۱۵ ، ۴ ، ۲۱۰۹-۲۱۳۰٫ [ Google Scholar ] [ CrossRef ]
- فیس بوک. همه دسته بندی ها. در دسترس آنلاین: https://www.facebook.com/pages/category/ (در ۱۶ دسامبر ۲۰۱۹ قابل دسترسی است).
- نواکوویچ، جی. Strbac، P. Bulatović، D. به سوی انتخاب ویژگی بهینه با استفاده از روش های رتبه بندی و الگوریتم های طبقه بندی. یوگسل. جی. اوپر. Res. ۲۰۱۱ ، ۲۱ ، ۱۱۹-۱۳۵٫ [ Google Scholar ] [ CrossRef ]
- RapidMiner. RapidMiner | پلتفرم علم داده و یادگیری ماشین ۲۰۲۰٫ در دسترس آنلاین: https://rapidminer.com/ (دسترسی در ۱۸ ژوئن ۲۰۱۹).
- RapidMiner. شبکه عصبی در دسترس آنلاین: https://docs.rapidminer.com/latest/studio/operators/modeling/predictive/neural_nets/neural_net.html (در ۸ ژوئیه ۲۰۲۰ قابل دسترسی است).
شکل ۱٫ تولید مختصات. همانطور که در ( a ) مشاهده می شود، اگر فواصل بین نقاط خیلی زیاد باشد، برنامه نمی تواند کل منطقه را پوشش دهد، بنابراین، معقول ترین پیکربندی ممکن است در ( b ) باشد. با اتخاذ این پیکربندی، الگوی نهایی در ( c ) نشان داده میشود، جایی که میتوان دید که نقاط قرمز در مقایسه با نقاط سیاه کمی جابهجا میشوند. این پیکربندی به نرم افزار اجازه می دهد تا منطقه بیشتری را با مناطق کمتری با هم تداخل داشته باشد.
شکل ۲٫ مجموعه ای از مختصات تولید شده برای انجام جستجو. همانطور که در ( الف ) مشاهده می شود، نقاط در ابتدا در کل منطقه در داخل مربع بر اساس محدودیت های داده شده توسط کاربر توزیع شدند. ب ) نقاط خارج از محدوده جغرافیایی کشور را نشان می دهد. ( c ، d ) موقعیت مختصات نهایی را پس از فیلتر کردن نشان می دهد.
شکل ۳٫ شبکه ای که در آن هر سلول نشان دهنده یک واحد زمین است که باید طبقه بندی شود. هنگامی که ایجاد می شود، شبکه مانند ( a ) به نظر می رسد؛ همانطور که در ( b , c ) می بینیم، پس از تقاطع، تنها سلول های داخل محدوده جغرافیایی منطقه مورد مطالعه نگهداری شدند .
شکل ۴٫ مجاورت جغرافیایی بین جنگل ها، زمین های کشاورزی و مناطق شهری ناپیوسته.