ملزومات سیستم های اطلاعات جغرافیایی(ویژگی های داده و تجسم)


ویژگی های داده و تجسم

در پست های قبلی، آموختیم که چگونه بسته‌های نرم‌افزاری سیستم اطلاعات جغرافیایی (GIS) از پایگاه‌های داده برای ذخیره‌سازی اطلاعات ویژگی‌های مختلف اطلاعات مکانی در یک نقشه استفاده می‌کنند. با این حال، ارزش واقعی این اطلاعات زمانی مشخص می‌شود که ابزارهای تحلیلی قدرتمند مشابهی برای دسترسی، پردازش و ساده‌سازی داده‌ها به کار گرفته شوند. برای این منظور، GIS معمولاً مجموعه‌ای از ابزارهای پیشرفته برای جستجو، پرس‌وجو، توصیف، خلاصه‌سازی و طبقه‌بندی داده‌ها ارائه می‌دهد. با استفاده از این ابزارها، حتی بزرگترین مجموعه‌های داده نیز قابل استخراج هستند تا به کاربران این امکان را بدهند که بینش‌های معنی‌داری از آن اطلاعات استخراج کرده و تحلیل‌هایی مفید ارائه دهند.

توضیحات و خلاصه

هدف یادگیری

هدف این بخش، بررسی رایج‌ترین معیارهای توزیع، تمایل مرکزی و پراکندگی است.

هیچ بحثی در مورد تجزیه و تحلیل جغرافیایی بدون مروری مختصر بر مفاهیم اولیه آماری کامل نخواهد بود. آمارهای اساسی معرفی‌شده در اینجا، نقطه شروعی برای هر تلاشی در جهت توصیف، خلاصه‌سازی و تحلیل مجموعه‌های داده جغرافیایی هستند. نمونه‌ای از تلاش‌های آماری در زمین‌فضا، تجزیه و تحلیل داده‌های نقطه‌ای به‌دست‌آمده از مجموعه‌ای از سنجش های بارندگی است که در سراسر یک منطقه خاص توزیع شده‌اند. با استفاده از این باران‌سنج‌ها، می‌توان مقدار معمولی و تغییرپذیری بارندگی در هر ایستگاه را محاسبه کرده و همچنین میزان بارندگی متوسط در سطح کل منطقه را تعیین کرد. علاوه بر این، می‌توان میزان بارندگی را بین هر ایستگاه یا در مناطقی که بیشترین یا کمترین بارندگی رخ می‌دهد، درون‌یابی کرد. همچنین، می‌توان مقدار پیش‌بینی شده بارندگی را در آینده برای هر ایستگاه یا بین ایستگاه‌ها پیش‌بینی نمود.

افزایش قدرت محاسباتی در چند دهه گذشته باعث تولید مجموعه داده‌های گسترده‌ای شده است که جمع‌بندی آن‌ها به‌سادگی امکان‌پذیر نیست. آمار توصیفی، توصیفات عددی ساده‌ای از این مجموعه داده‌های بزرگ ارائه می‌دهد. آمار توصیفی عمدتاً به تحلیل تک‌متغیره می‌پردازد، به این معنا که یک متغیر را در یک زمان بررسی می‌کند. سه دسته اصلی از آمار توصیفی وجود دارند که در اینجا به آن‌ها پرداخته خواهد شد: معیارهای توزیع، معیارهای گرایش مرکزی و معیارهای پراکندگی. با این حال، پیش از اینکه به تفصیل به تکنیک‌های آماری مختلف پرداخته شود، ابتدا باید چند اصطلاح پایه را تعریف کنیم:

    • متغیر: نمادی که برای نشان دادن هر مقدار یا مجموعه‌ای از مقادیر استفاده می‌شود.
    • مقدار: مشاهده فردی از یک متغیر (در سیستم اطلاعات جغرافیایی [GIS] به آن رکورد نیز گفته می‌شود).
    • جمعیت: مجموعه‌ای از تمام مقادیر ممکن برای یک متغیر.
    • نمونه: زیرمجموعه‌ای از جمعیت.
    • n: تعداد مشاهدات یک متغیر.
    • آرایه: دنباله‌ای از مقادیر مشاهده شده (در GIS به آن فیلد نیز گفته می‌شود و در جدول ویژگی‌ها به صورت ستون نمایش داده می‌شود).
    • آرایه مرتب‌شده: یک آرایه مرتب‌شده و کمی.

اقدامات توزیع

اندازه‌گیری توزیع یک متغیر، صرفاً خلاصه‌ای از فراوانی مقادیر در دامنه مجموعه داده است (که به آن توزیع فراوانی نیز گفته می‌شود). به طور معمول، مقادیر متغیر داده‌شده در یک سری از کلاس‌های از پیش تعیین‌شده (که به آنها فواصل، بن‌ها یا دسته‌ها نیز گفته می‌شود) گروه‌بندی می‌شوند و تعداد مقادیر داده‌ای که در هر کلاس قرار می‌گیرند، خلاصه می‌شود. نموداری که تعداد مقادیر داده را در هر کلاس نشان می‌دهد، هیستوگرام نامیده می‌شود.

برای مثال، درصد نمرات یک کلاس در یک امتحان ممکن است به آرایه زیر منجر شود (n = 30):

آرایه نمرات امتحان: {۸۷، ۷۶، ۸۹، ۹۰، ۶۴، ۶۷، ۵۹، ۷۹، ۸۸، ۷۴، ۷۲، ۹۹، ۸۱، ۷۷، ۷۵، ۸۶، ۹۴، ۶۶، ۷۵، ۷۴، ۸۳، ۹۲، ۷۵، ۷۳، ۷۰، ۶۰، ۸۰، ۸۵، ۵۷}

برای قرار دادن این آرایه در یک توزیع فراوانی، دستورالعمل‌های کلی زیر باید رعایت شوند:

  1. بین پنج تا پانزده کلاس مختلف باید استفاده شوند، اگرچه تعداد دقیق کلاس‌ها به تعداد مشاهدات بستگی دارد.
  2. هر مشاهده باید به یک و تنها یک کلاس اختصاص یابد.
  3. در صورت امکان، از کلاس‌هایی استفاده شود که مقادیرشان در محدوده‌های مساوی تقسیم‌بندی شده‌اند (فروند و پرلز، ۲۰۰۶).

با رعایت این رهنمودها، آرایه نمرات امتحانی که پیش‌تر نشان داده شد، می‌تواند به شکل هیستوگرام زیر تجسم شود (شکل ۶٫۱ “هیستوگرام نشان‌دهنده توزیع فراوانی نمرات امتحان”).

شکل ۶٫۱ هیستوگرام توزیع فراوانی نمرات امتحان را نشان می دهد

همان‌طور که از هیستوگرام مشاهده می‌شود، می‌توان مشاهدات توصیفی خاصی را به‌راحتی انجام داد. بیشتر دانش‌آموزان در امتحان نمره C (70-79) دریافت کرده‌اند. دو دانش‌آموز در امتحان مردود شده‌اند (۵۰-۵۹). پنج دانش‌آموز نمره A (90-99) کسب کرده‌اند. توجه داشته باشید که این هیستوگرام سومین قانون اساسی را نقض می‌کند که بر اساس آن هر کلاس باید محدوده مساوی داشته باشد، زیرا محدوده نمرات F (0-59) متغیر است، در حالی که سایر درجات محدوده‌هایی با اندازه یکسان دارند. با این حال، در این مورد، نگرانی اصلی ما توصیف توزیع نمرات امتحانی است. بنابراین، ایجاد محدوده‌های کلاسی که بهترین تطابق را با نیازهای خاص ما دارند، کاملاً منطقی به نظر می‌رسد.

اقدامات گرایش مرکزی

ما می‌توانیم آرایه نمرات امتحان را با اعمال معیارهای گرایش مرکزی بیشتر بررسی کنیم. سه معیار اصلی برای گرایش مرکزی وجود دارد: میانگین، حالت و میانه.

میانگین که معمولاً به‌عنوان «میانگین حسابی» شناخته می‌شود، بیشترین استفاده را برای سنجش گرایش مرکزی دارد. برای محاسبه میانگین، کافی است تمام مقادیر موجود در آرایه را جمع کرده و آن مجموع را بر تعداد مشاهدات تقسیم کنید. برای بازگشت به مثال نمرات امتحان قبلی، مجموع آن آرایه ۲۳۴۰ است و تعداد مشاهدات ۳۰ (n = 30) می‌باشد. بنابراین، میانگین برابر با ۲۳۴۰ ÷ ۳۰ = ۷۸ است.

حالت معیاری است که بیشترین فراوانی را در آرایه نشان می‌دهد. در مورد نمرات امتحان، حالت برابر با ۷۵ است، زیرا بیشترین تعداد دانش‌آموزان (در مجموع سه نفر) این نمره را دریافت کرده‌اند.

میانه به مشاهده‌ای گفته می‌شود که وقتی آرایه از کمترین به بیشترین مرتب می‌شود، دقیقاً در وسط آن قرار می‌گیرد. به‌طور خاص، میانه مقداری است که در وسط آرایه مرتب‌شده زمانی که تعداد مشاهدات فرد باشد، قرار دارد. از طرف دیگر، هنگامی که تعداد مشاهدات زوج باشد، میانه با یافتن میانگین دو مقدار مرکزی محاسبه می‌شود. اگر آرایه نمرات امتحان را مجدداً مرتب کنیم، نمرات به این ترتیب فهرست می‌شوند:

آرایه مرتب‌شده از نمرات امتحان: {۵۷، ۵۹، ۶۰، ۶۴، ۶۶، ۶۷، ۷۰، ۷۲، ۷۳، ۷۴، ۷۴، ۷۵، ۷۵، ۷۵، ۷۶، ۷۷، ۷۹، ۸۰، ۸۱، ۸۳، ۸۵، ۸۶، ۸۷، ۸۸، ۸۹، ۹۰، ۹۲، ۹۳، ۹۴، ۹۹}

از آنجا که در این مثال تعداد مشاهدات برابر با ۳۰ (n = 30) است، تعداد مشاهدات زوجی داریم. بنابراین، برای محاسبه میانه، میانگین دو مقدار مرکزی (مقدار ۱۵ام = ۷۶ و مقدار ۱۶ام = ۷۷) محاسبه می‌شود که در نتیجه میانه برابر با (۷۶ + ۷۷) ÷ ۲ = ۷۶٫۵ خواهد بود.

در مجموع، میانگین، حالت و میانه ابتدایی‌ترین راه‌ها برای تحلیل روندها در یک مجموعه داده هستند.

اقدامات پراکندگی

سومین نوع آمار توصیفی، معیارهای پراکندگی است (که به آن‌ها معیارهای تغییرپذیری نیز گفته می‌شود). این معیارها پراکندگی داده‌ها را در اطراف میانگین توصیف می‌کنند. ساده‌ترین معیار پراکندگی، محدوده است که برابر با تفاوت بزرگ‌ترین مقدار و کوچک‌ترین مقدار در مجموعه داده‌ها است. در مثال ما، محدوده برابر با ۹۹−۵۷=۴۲۹۹ – ۵۷ = ۴۲ است.

محدوده بین چارکی معیاری پیچیده‌تر برای اندازه‌گیری پراکندگی است. این روش داده‌ها را به چهار بخش تقسیم می‌کند. برای انجام این کار، ابتدا از میانه برای تقسیم آرایه مرتب‌شده به دو نیمه استفاده می‌شود. سپس این نیمه‌ها دوباره با استفاده از میانه خود به دو بخش تقسیم می‌شوند. چارک اول (Q1) میانه نیمه پایینی آرایه مرتب‌شده است و به‌عنوان چارک پایین نیز شناخته می‌شود. Q2 همان میانه کل آرایه است. Q3 میانه نیمه بالایی آرایه مرتب‌شده است و به‌عنوان چارک بالا شناخته می‌شود. تفاوت بین چارک بالا و پایین، محدوده بین چارکی را تشکیل می‌دهد. در مثال نمرات امتحان، Q1=72.25Q1 = 72.25 و Q3=86.75Q3 = 86.75 است. بنابراین، محدوده بین چارکی برای این مجموعه داده ۸۶٫۷۵−۷۲٫۲۵=۱۴٫۵۰۸۶٫۷۵ – ۷۲٫۲۵ = ۱۴٫۵۰ است.

واریانس (که معمولاً با نماد s2s^2 نمایش داده می‌شود) سومین معیار پراکندگی است. برای محاسبه واریانس، باید هر نمره امتحان را از میانگین نمرات امتحان کم کنید. همان‌طور که ممکن است حدس بزنید، برخی از تفاوت‌ها مثبت و برخی منفی خواهند بود که در نتیجه مجموع این تفاوت‌ها برابر با صفر می‌شود. از آن‌جایی که بیشتر به بزرگی این تفاوت‌ها (یا انحرافات) از میانگین علاقه‌مندیم، یک روش برای غلبه بر این ویژگی “صفر شدن” آن‌ها، مربع کردن هر انحراف است. این‌گونه مقادیر منفی از محاسبات حذف می‌شوند (شکل ۶٫۲). این کار منجر به موارد زیر می‌شود:

شکل ۶٫۲

سپس مجموع مربعات انحرافات را بر n−۱n – 1 (در صورتی که با نمونه کار می‌کنیم) یا nn (در صورتی که با جمعیت کامل کار می‌کنیم) تقسیم می‌کنیم. از آن‌جایی که نمرات امتحان داده‌شده در اینجا نمایانگر کل جمعیت کلاس است، از فرمول واریانس استفاده می‌کنیم که منجر به واریانس s2=116.4s^2 = 116.4 می‌شود. اگر بخواهیم از این نمرات امتحانی برای برون‌یابی اطلاعات در مورد جمعیت بزرگ‌تر استفاده کنیم، با نمونه‌ای از جامعه کار خواهیم کرد و در این صورت مجموع مربعات انحرافات را بر n−۱n – 1 تقسیم می‌کنیم.

شکل ۶٫۳ واریانس

انحراف استاندارد، که آخرین و رایج‌ترین معیار پراکندگی است که در اینجا بررسی می‌شود، برای جبران تأثیر مربع کردن هر تفاوت از میانگین در محاسبه واریانس، جذر واریانس را می‌گیرد. همانطور که در شکل ۶٫۴ “انحراف استاندارد” نشان داده شده است، در مثال نمرات امتحان، انحراف استاندارد برابر با s=116.4=10.8s = \sqrt{116.4} = 10.8 است.

شکل ۶٫۴ انحراف معیار

محاسبه انحراف استاندارد به ما این امکان را می‌دهد که استنباط‌های معناداری در مورد پراکندگی مجموعه داده‌های خود داشته باشیم. انحراف استاندارد کوچک نشان‌دهنده این است که مقادیر مجموعه داده به‌طور متمرکز در اطراف میانگین جمع شده‌اند، در حالی که انحراف استاندارد بزرگ‌تر نشان‌دهنده پراکندگی وسیع مقادیر در اطراف میانگین است.

اگر مجموعه داده با توزیع نرمال مطابقت داشته باشد، می‌توان استنباط‌های بیشتری در مورد انحراف استاندارد انجام داد. توزیع نرمال به این معناست که داده‌ها، وقتی در یک توزیع فرکانس (هیستوگرام) قرار می‌گیرند، متقارن و به‌طور کلی “زنگ‌شکل” به نظر می‌رسند. در غیر این صورت، توزیع داده‌ها به طور مثبت یا منفی “منحرف” یا “مائل” نامیده می‌شود (شکل ۶٫۵ “هیستوگرام مجموعه داده‌های منحنی، با انحراف مثبت و منفی”). داده‌های مایل، داده‌هایی هستند که حول میانگین به‌طور متقارن توزیع نشده‌اند.

با این حال، داده‌های با توزیع نرمال این ویژگی را دارند که تقریباً ۶۸ درصد از مقادیر داده‌ها در یک انحراف استاندارد ±۱ از میانگین قرار می‌گیرند و ۹۵ درصد از مقادیر داده‌ها در یک انحراف استاندارد ±۲ از میانگین قرار دارند. در مثال ما، با میانگین ۷۸ و انحراف استاندارد ۱۰٫۸، می‌توان گفت که ۶۸ درصد از نمرات در بازه ۶۷٫۲ تا ۸۸٫۸ (یعنی ۷۸ ± ۱۰٫۸) قرار دارند، در حالی که ۹۵ درصد از نمرات در بازه ۵۶٫۴ تا ۹۹٫۶ قرار دارند (یعنی ۷۸ ± [۱۰٫۸ * ۲]).

برای مجموعه داده‌هایی که با منحنی نرمال مطابقت ندارند، می‌توان فرض کرد که حدود ۷۵ درصد از مقادیر داده‌ها در بازه ±۲ انحراف استاندارد از میانگین قرار دارند.

شکل ۶٫۵ هیستوگرام مجموعه داده های منحنی معمولی، دارای انحراف مثبت و منحنی منفی

خوراکی های کلیدی

  • اندازه گیری توزیع برای یک متغیر معین خلاصه ای از فراوانی مقادیر در محدوده مجموعه داده است و معمولاً با استفاده از یک هیستوگرام نشان داده می شود.
  • اندازه‌گیری‌های گرایش مرکزی تلاش می‌کنند تا بینش‌هایی را درباره ارزش «معمولی» برای یک مجموعه داده ارائه دهند.
  • معیارهای پراکندگی (یا تغییرپذیری) پراکندگی داده ها در اطراف میانگین یا میانه را توصیف می کند.

تمرینات

  1. یک جدول حاوی حداقل سی مقدار داده ایجاد کنید.
  2. برای جدولی که ایجاد کردید، میانگین، حالت، میانه، محدوده، محدوده بین چارکی، واریانس و انحراف معیار را محاسبه کنید.

 


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما