ملزومات سیستم های اطلاعات جغرافیایی(طبقه بندی داده ها)


 طبقه بندی داده ها

هدف یادگیری

هدف این بحث توصیف روش‌های موجود برای تجزیه و تحلیل داده‌ها به کلاس‌های مختلف جهت نمایش بصری در نقشه است.

فرآیند طبقه‌بندی داده‌ها، داده‌های خام را در کلاس‌های از پیش تعریف‌شده یا bin‌ها گروه‌بندی می‌کند. این کلاس‌ها ممکن است در نقشه با استفاده از نمادهای منحصر به فرد یا، در مورد نقشه‌های choropleth، با یک رنگ یا طیف رنگی ویژه نمایش داده شوند (برای اطلاعات بیشتر در مورد رنگ‌ها، به پست “تحلیل جغرافیایی II: داده‌های رستری”). نقشه‌های choropleth نقشه‌های موضوعی هستند که با رنگ‌های مدرج سایه‌دار می‌شوند تا برخی از متغیرهای آماری مورد نظر را نشان دهند. اگرچه این فرآیند به نظر ساده می‌رسد، چندین روش طبقه‌بندی مختلف در دسترس نقشه‌سازان است. این روش‌ها مقادیر ویژگی‌ها را در بازه‌های مختلف تجزیه می‌کنند. Monmonier (1991) اشاره کرده است که روش‌های طبقه‌بندی مختلف می‌توانند تأثیر زیادی بر قابلیت تفسیر یک نقشه خاص داشته باشند، زیرا الگوی بصری نمایش داده‌شده به راحتی با تغییر فاصله‌های بازه‌ای خاص تحریف می‌شود. علاوه بر روش انتخابی، تعداد کلاس‌هایی که برای نمایش ویژگی‌های مورد نظر انتخاب می‌شوند نیز می‌تواند تأثیر قابل‌توجهی بر توانایی بیننده برای تفسیر اطلاعات نقشه بگذارد. افزودن تعداد زیاد کلاس‌ها ممکن است نقشه را پیچیده و مبهم کند. از سوی دیگر، انتخاب تعداد کم کلاس‌ها ممکن است نقشه را ساده‌سازی کرده و روندهای مهم داده‌ها را پنهان سازد. در بیشتر موارد، طبقه‌بندی مؤثر از چهار تا شش کلاس مجزا استفاده می‌کند.

اگرچه ممکن است مشکلاتی در هر تکنیک طبقه‌بندی وجود داشته باشد، یک choropleth طراحی‌شده به‌خوبی می‌تواند قابلیت تفسیر نقشه را به‌طور چشمگیری افزایش دهد. در بخش بعدی، روش‌های طبقه‌بندی معمولاً موجود در بسته‌های نرم‌افزاری سیستم‌های اطلاعات جغرافیایی (GIS) شرح داده می‌شوند. در این مثال‌ها، از داده‌های جمعیتی اداره سرشماری ایالات متحده برای شهرستان‌های ایالات متحده در سال ۱۹۹۷ استفاده خواهد شد. این داده‌ها به صورت رایگان در وب‌سایت سرشماری ایالات متحده (http://www.census.gov) در دسترس هستند.

روش طبقه‌بندی بازه مساوی (یا گام مساوی) مقادیر ویژگی‌ها را به کلاس‌هایی با اندازه برابر تقسیم می‌کند. تعداد کلاس‌ها توسط کاربر تعیین می‌شود. این روش به‌ویژه برای داده‌های پیوسته مانند بارش یا دما مناسب است. در داده‌های اداره سرشماری ۱۹۹۷، مقادیر جمعیت شهرستان‌ها در ایالات متحده از ۴۰ (شهرستان پارک ملی یلوستون، MO) تا ۹،۱۸۴،۷۷۰ (شهرستان لس‌آنجلس، کالیفرنیا) متغیر است، که محدوده آن ۹،۱۸۴،۷۷۰ – ۴۰ = ۹،۱۸۴،۷۳۰ است. اگر تصمیم بگیریم این داده‌ها را به ۵ کلاس بازه‌ای مساوی طبقه‌بندی کنیم، دامنه هر طبقه به‌طور میانگین ۹،۱۸۴،۷۳۰ / ۵ = ۱،۸۳۶،۹۴۶ خواهد بود (شکل ۶٫۱۹ “طبقه‌بندی فاصله مساوی برای داده‌های جمعیت شهرستان‌های ایالات متحده در سال ۱۹۹۷”).

مزیت روش طبقه‌بندی فاصله مساوی این است که افسانه‌ای ساده می‌سازد که تفسیر و ارائه آن برای مخاطبان غیر فنی آسان است. نقطه ضعف اصلی این است که در برخی مجموعه داده‌ها، بیشتر مقادیر در یک یا دو کلاس قرار می‌گیرند، در حالی که سایر کلاس‌ها مقادیر کمی دارند یا هیچ مقداری را شامل نمی‌شوند. همان‌طور که در شکل ۶٫۱۹ “طبقه‌بندی بازه‌های مساوی برای داده‌های جمعیت شهرستان‌های ایالات متحده در سال ۱۹۹۷” مشاهده می‌شود، تقریباً تمام شهرستان‌ها به اولین سطل (زرد) اختصاص داده شده‌اند.

شکل ۶٫۱۹ طبقه بندی بازه های مساوی برای داده های جمعیت شهرستان ایالات متحده در سال ۱۹۹۷

روش طبقه‌بندی چندک (Quantile Classification) تعداد مشاهدات مساوی را در هر کلاس قرار می‌دهد. این روش برای داده‌هایی که به طور یکنواخت در محدوده آن توزیع شده‌اند، بهترین کارایی را دارد. شکل ۶٫۲۰ “کوانتیل‌ها” روش طبقه‌بندی چندک را با پنج کلاس نشان می‌دهد. از آنجایی که در ایالات متحده ۳۱۴۰ شهرستان وجود دارد، هر کلاس در این روش شامل ۳۱۴۰ / ۵ = ۶۲۸ شهرستان خواهد بود.

مزیت این روش این است که معمولاً بر تأکید بر موقعیت نسبی مقادیر داده‌ها برتری دارد (یعنی تعیین اینکه کدام شهرستان‌ها شامل ۲۰ درصد از جمعیت ایالات متحده هستند). نقطه ضعف اصلی روش طبقه‌بندی چندک این است که ویژگی‌هایی که در یک کلاس قرار می‌گیرند ممکن است مقادیر بسیار متفاوتی داشته باشند، به ویژه اگر داده‌ها به طور مساوی در محدوده آن توزیع نشده باشند. علاوه بر این، امکان دارد مقادیر با تفاوت‌های محدوده‌ای کوچک در کلاس‌های مختلف قرار بگیرند که می‌تواند تفاوت‌های بزرگ‌تری در داده‌ها نسبت به آنچه که واقعاً وجود دارد، نشان دهد.

شکل ۶٫۲۰ چندک

روش طبقه‌بندی شکست‌های طبیعی (یا جنکس) از یک الگوریتم برای گروه‌بندی مقادیر به کلاس‌هایی استفاده می‌کند که با نقاط شکست مجزا از هم جدا شده‌اند. این روش بهترین عملکرد را برای داده‌هایی دارد که به طور ناموزون توزیع شده‌اند، اما به سمت هر دو انتهای توزیع منحرف نمی‌شوند. شکل ۶٫۲۱ “وقفه‌های طبیعی” طبقه‌بندی شکست‌های طبیعی برای داده‌های تراکم جمعیت شهرستان‌های ایالات متحده در سال ۱۹۹۷ را نشان می‌دهد.

یکی از معایب احتمالی این روش این است که می‌تواند کلاس‌هایی ایجاد کند که دارای محدوده‌های عددی بسیار متفاوتی باشند. به عنوان مثال، کلاس ۱ ممکن است با محدوده‌ای کمی بیش از ۱۵۰,۰۰۰ مشخص شود، در حالی که کلاس ۵ با محدوده‌ای بیش از ۶,۰۰۰,۰۰۰ مشخص خواهد شد. در چنین مواردی، ممکن است مفید باشد که کلاس‌ها را بعد از تلاش طبقه‌بندی تغییر داده یا برچسب‌ها را به مقیاس‌های ترتیبی مانند “کوچک”، “متوسط” یا “بزرگ” تغییر دهید. این روش به ویژه می‌تواند نقشه‌ای تولید کند که برای بیننده قابل درک‌تر باشد.

نقطه ضعف دیگر این روش این است که مقایسه دو یا چند نقشه که با استفاده از طبقه‌بندی شکست‌های طبیعی ایجاد شده‌اند، دشوار است؛ زیرا محدوده کلاس‌ها برای هر مجموعه داده خاص است.

شکل ۶٫۲۱ شکست های طبیعی

در نهایت، روش طبقه‌بندی انحراف استاندارد، هر کلاس را با اضافه کردن و کم کردن انحراف استاندارد از میانگین مجموعه داده‌ها تشکیل می‌دهد. این روش برای داده‌هایی که توزیع نرمال دارند، مناسب‌تر است. برای نمونه، در داده‌های جمعیت شهرستان، میانگین برابر با ۸۵,۱۰۸ و انحراف معیار ۲۷۷,۰۸۰ است. بنابراین، همان‌طور که در افسانه شکل ۶٫۲۲ “انحراف استاندارد” مشاهده می‌شود، کلاس مرکزی شامل مقادیری است که در فاصله ۰٫۵ انحراف استاندارد از میانگین قرار دارند، در حالی که کلاس‌های بالاتر و پایین‌تر شامل مقادیری هستند که ۰٫۵ یا بیشتر انحراف استاندارد بالاتر یا پایین‌تر از میانگین قرار دارند.

شکل ۶٫۲۲ انحراف معیار

در نتیجه، چندین روش طبقه‌بندی داده‌ها وجود دارد که می‌توانند برای نقشه‌های choropleth اعمال شوند. اگرچه روش‌های دیگری نیز در دسترس هستند (مانند مساحت مساوی یا بهینه‌سازی)، آن‌هایی که در اینجا بیان شده‌اند، رایج‌ترین و قابل‌دسترس‌ترین روش‌ها را نشان می‌دهند. هر یک از این روش‌ها داده‌ها را به شیوه‌ای متفاوت نمایش می‌دهند و جنبه‌های مختلف روند در مجموعه داده‌ها را برجسته می‌کنند. در حقیقت، روش طبقه‌بندی و همچنین تعداد کلاس‌های مورد استفاده می‌تواند به تفاسیر متفاوتی از مجموعه داده‌ها منجر شود. این بر عهده شما، نقشه‌بردار است که روشی را انتخاب کنید که به بهترین شکل با نیازهای مطالعه‌تان مطابقت داشته باشد و داده‌ها را تا حد ممکن به‌طور معنادار و شفاف ارائه نمایید.

خوراکی های کلیدی

  • نقشه‌های کروپلث نقشه‌های موضوعی هستند که با رنگ‌های مدرج سایه‌دار می‌شوند تا برخی از متغیرهای آماری مورد علاقه را نشان دهند.
  • چهار روش برای طبقه بندی داده های ارائه شده در اینجا شامل فواصل مساوی، چارک، شکست های طبیعی و انحراف معیار است. این روش ها مزایا و معایب خاصی را هنگام تجسم یک متغیر مورد علاقه نشان می دهند.

تمرینات

  1. با توجه به نقشه های choropleth ارائه شده در این پست، به نظر شما کدام مجموعه داده را بهتر نشان می دهد؟چرا؟
  2. آنلاین شوید و دو روش دیگر طبقه بندی داده ها را که برای کاربران GIS در دسترس است شرح دهید.
  3. برای جدول سی مقدار داده ایجاد شده درمبحث«توضیحات و خلاصه‌ها» ، تمرین ۱، محدوده داده‌ها را برای هر کلاس مشخص کنید، به گونه‌ای که گویی در حال ایجاد طرح‌های طبقه‌بندی فاصله و کمیت یکسان هستید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما