کیفیت داده ها
هدف یادگیری
هدف این پست، تعیین انواع مختلف خطاهای ذاتی در مجموعه دادههای مکانی است.
تمام دادههای مکانی به یک اندازه ایجاد نمیشوند. کیفیت داده به توانایی یک مجموعه داده مشخص برای برآوردن هدفی که برای آن طراحی شده است اشاره دارد. با توجه به حجم عظیم دادههای مکانی که تولید شده و به جامعه نقشهکشی ارائه میشود، کاربران سیستمهای اطلاعات جغرافیایی (GIS) باید دقت داشته باشند تا اطمینان حاصل کنند که دادههای استفادهشده در پروژههایشان برای اهداف مورد نظر مناسب هستند.
دقت: دقت نشاندهنده این است که اندازهگیری چقدر به مقدار واقعی خود نزدیک است و اغلب به صورت احتمالی بیان میشود (مثلاً ۸۰ درصد از تمام نقاط در فاصله ۵±۵ متر از موقعیت واقعی خود قرار دارند).دقت به واریانس یک مقدار در هنگام اندازهگیریهای مکرر اشاره دارد. به عنوان مثال، ساعت ممکن است ۱/۱۰۰۰ ثانیه دقیق باشد، اما ممکن است ۳۰ دقیقه کند عمل کند (یعنی دقت ندارد).
همانطور که در شکل ۵٫۱۲ “دقت و صحت” مشاهده میکنید، دارتهای آبی هم دقت و هم صحت را نشان میدهند، در حالی که دارتهای قرمز دقیق هستند اما نادرست.
شکل ۵٫۱۲ دقت و صحت
هنگامی که الزامات دقت و/یا صحت در هنگام جمعآوری و ایجاد دادهها برآورده نمیشود، انواع مختلفی از خطاها میتوانند ایجاد شوند. دقت موقعیتی احتمال این است که یک ویژگی در محدوده ± واحد موقعیت واقعی خود روی زمین (دقت موقعیتی مطلق) یا نسبت به سایر عوارض نقشهبرداری شده (دقت موقعیتی نسبی) قرار داشته باشد. به عنوان مثال، میتوان گفت که یک تلاش نقشهبرداری خاص ممکن است منجر به نقشهبرداری ۹۵ درصد از درختان در فاصله ±۵ فوت از موقعیت واقعی آنها شود (مطلق)، یا ۹۵ درصد از درختان در محدوده ±۵ فوت نسبت به مکان خود همانطور که در یک چهارگوش ربع ارتو دیجیتال مشاهده شده است، نقشهبرداری شوند (نسبی).
صحبت از خطای موقعیت مطلق این سوال را بهوجود میآورد که دقیقاً مکان واقعی یک شیء چیست؟ همانطور که در پست “آناتومی نقشه” توضیح داده شد، تصورات مختلف از شکل زمین منجر به پیشبینیهای متنوعی از نقاط داده و مدلهای کروی شده است که هرکدام سعی دارند خطاهای موقعیتی را برای مکانهای خاص روی زمین روشن کنند. برای شروع پاسخ به این سوال پیچیده، استاندارد ملی دقت نقشه ایالات متحده (NMAS) پیشنهاد میکند که برای برآورده کردن الزامات دقت افقی، باید انتظار داشت که در نقشههای کاغذی بیش از ۱۰ درصد از نقاط قابل اندازهگیری خارج از محدوده مقادیر دقت نشان داده شده در شکل ۵٫۱۳ “رابطه بین خطای موقعیت و مقیاس” نباشند. بهطور مشابه، دقت عمودی نیز باید بهگونهای باشد که بیش از ۱۰ درصد ارتفاعات روی نقشه کانتور بیشتر از نیمی از فاصله کانتور خطا نداشته باشد. هر نقشهای که این استانداردهای دقت افقی و عمودی را رعایت نکند، برای انتشار غیرقابل قبول تلقی میشود.
شکل ۵٫۱۳ رابطه بین خطای موقعیت و مقیاس
خطاهای موقعیتی از منابع مختلفی به وجود میآیند. یکی از فرآیندهایی که معمولاً باعث بروز این خطاها میشود، رقومی کردن نقشههای کاغذی است. هنگام انتقال نقشه به یک تابلوی دیجیتالی، ممکن است خطاهایی ایجاد شود. نقشههای کاغذی بهطور طبیعی ممکن است در طول زمان تغییر شکل دهند؛ ممکن است کوچک شوند، کشیده شوند یا پاره شوند، که باعث تغییر ابعاد آنها میشود. خطاهای ورودی نیز میتوانند از نقاط رقومی سازی شده نادرست ناشی شوند. علاوه بر این، تبدیل بین سیستمهای مختصات مختلف و تغییرات در نقاط داده میتواند باعث بروز خطا در مجموعه دادهها شود.
برای ارزیابی میزان عدم دقت در نقشههای دیجیتال، معمولاً از خطای ریشه میانگین مربع (RMS) استفاده میشود. این معیار انحراف بین مکانهای واقعی (صحت سنجی) و تخمینی (رقومی) نقاط کنترل را اندازهگیری میکند. شکل ۵٫۱۴ “خطای رقومی بالقوه” خطاهای ناشی از ورودیهای نادرست مکان کنترل را نشان میدهد که موجب تغییرات در خطوطی میشود که انواع خاکها را نمایش میدهند. با اعمال محاسبه خطای RMS به مجموعه دادهها، میتوان دقت نقشه رقومی شده را ارزیابی کرد و بر این اساس مناسب بودن آن را برای استفاده در یک مطالعه خاص تعیین نمود.
شکل ۵٫۱۴ خطای رقومی بالقوه
هنگامی که عوارضی که قرار است نقشهبرداری شوند ذاتاً مبهم هستند، ممکن است خطاهای موقعیتی ایجاد شود. به عنوان مثال، تالاب را در نظر بگیرید (شکل ۵٫۱۵ “تعریف مرز تالاب”). چه چیزی مرز یک تالاب را مشخص میکند؟ تالابها با ترکیبی از عوامل هیدرولوژیکی، رویشی و ادافیک تعیین میشوند. هرچند مسئولیت تعیین مرز تالابها در سراسر کشور به عهده سپاه مهندسان ارتش ایالات متحده است، این کار آنچنان که به نظر میرسد ساده نیست. بهویژه، تفاوتهای منطقهای در اطلاعات یک تالاب، تعیین مرز آن را پیچیده میکند. برای مثال، تعریف مرز تالاب برای تالابهای رودخانهای در شرق ایالات متحده که آب فراوان است، معمولاً در هنگام ترسیم انواع مشابه تالابها در بیابانهای جنوب غربی ایالات متحده کارآیی ندارد. در واقع، پیچیدگی و ابهام مرتبط با مفهوم “تالاب” ممکن است مشکلاتی را در تعریف دقیق این ویژگیها به وجود آورد.
شکل ۵٫۱۵ تعریف مرز تالاب
علاوه بر دقت موقعیتی، دقت عارضه یک منبع خطای رایج در سیستمهای اطلاعات جغرافیایی (GIS) است. خطاهای ویژگی زمانی رخ میدهند که مقداری نادرست در فیلد مشخصه ثبت شود یا زمانی که یک فیلد مقداری را از دست بدهد. اشتباهات املایی و سایر اشتباهات تایپی نیز رایج هستند. به طور مشابه، زمانی که توسعهدهندگان مقدار “۰” را در یک فیلد مشخصه وارد میکنند، در حالی که مقدار واقعی “تهی” است، یک اشتباه رایج رخ میدهد. این موضوع بهویژه در دادههای شمارشی رایج است، جایی که “۰” نشاندهنده صفر است و “تهی” نشاندهنده محلی است که هیچ تلاشی برای جمعآوری دادهها انجام نشده است. در مورد دادههای طبقهبندیشده، گاهی اوقات هنگامی که ویژگیها به اشتباه برچسبگذاری میشوند، نادرستی رخ میدهد. به عنوان مثال، یک نقشه کاربری زمین یا پوشش زمین ممکن است یک چندضلعی را به عنوان “کشاورزی” درج کند، در حالی که در واقع “مسکونی” باشد. این مسئله بهویژه در دادههای قدیمیتر صادق است، که ما را به منبع خطای بعدی هدایت میکند.
دقت زمانی به سال یا بهموقع بودن یک مجموعه داده پرداخته و این موضوع را بررسی میکند که آیا دادهها هنوز هم بهروز و مرتبط هستند یا خیر. هیچ مجموعه دادهای هیچگاه به طور کامل جاری نمیماند. در مدت زمانی که برای ایجاد یک مجموعه داده صرف میشود، ممکن است دادهها قبلاً قدیمی شده باشند. به همین دلیل، چندین تاریخ باید هنگام استفاده از دادهها مورد توجه قرار گیرد که این تاریخها معمولاً در فرادادهها موجود هستند. تاریخ انتشار به شما میگوید که مجموعه داده در چه زمانی ایجاد و یا منتشر شده است. تاریخ فیلد به تاریخ و زمان جمعآوری دادهها اشاره دارد. اگر مجموعه داده حاوی پیشبینیهای آینده باشد، باید یک دوره و یا تاریخ پیشبینی نیز ذکر شده باشد. برای پرداختن به دقت زمانی، بسیاری از مجموعههای داده تحت یک رژیم بهروزرسانی قرار میگیرند. به عنوان مثال، دپارتمان ماهی و بازی کالیفرنیا پایگاه دادههای گونههای حساس خود را تقریباً ماهانه بهروزرسانی میکند، زیرا یافتههای جدید به طور مداوم به دست میآید. به عنوان یک کاربر نهایی، مهم است که اطمینان حاصل کنید که دادههای مورد استفاده بهروز و مناسب هستند.
نوع چهارم دقت در GIS، سازگاری منطقی است. سازگاری منطقی مستلزم آن است که دادهها از نظر توپولوژیکی صحیح باشند. به عنوان مثال، آیا یک قطعه جریان از یک شیپ فایل خطی در دشت سیلابی، به درستی درون شیپ فایل چندضلعی مربوطه قرار میگیرد؟ آیا جادهها در گرهها به درستی به هم متصل میشوند؟ آیا تمام اتصالات و جریانها در یک شبکه در جهت صحیح قرار دارند؟ در این راستا، نویسنده اخیراً از یک برنامه تلفن هوشمند برای پیمایش در یک جاده شهری شلوغ استفاده کرده و دو بار به او گفته شد که مسیر اشتباه را در خیابانهای یکطرفه طی کند! بنابراین، اشتباهات در سازگاری منطقی میتواند نه تنها مشکلاتی را در تحلیل دادهها به وجود آورد بلکه ممکن است منجر به تخلفات رانندگی یا حتی حوادث جدی شود.
نوع نهایی دقت، کامل بودن دادهها است. گنجاندن تمامی عوارض در پایگاه داده GIS برای اطمینان از دقت نقشهبرداری ضروری است. به طور ساده، برای اینکه یک مجموعه داده دقیق باشد، باید تمام دادههای مورد نیاز در آن موجود باشند. آیا تمام شهرستانهای ایالت دارای نشانه هستند؟ آیا تمامی بخشهای جریان در شبکه رودخانه گنجانده شدهاند؟ آیا هر فروشگاه رفاهی در پایگاه داده فهرست شده است؟ آیا فقط انواع خاصی از فروشگاههای رفاه در پایگاه داده فهرست شدهاند؟ در واقع، دادههای ناقص به طور قطع منجر به تجزیه و تحلیل ناقص یا ناکافی خواهد شد.
خوراکی های کلیدی
- همه داده های مکانی حاوی خطا هستند.
- دقت نشان دهنده نزدیکی یک اندازه گیری به مقدار واقعی آن است، در حالی که دقت به واریانس یک مقدار هنگام اندازه گیری های مکرر اشاره دارد.
- پنج نوع خطا در یک مجموعه داده مکانی به دقت موقعیتی، صحت ویژگی، دقت زمانی، ثبات منطقی و کامل بودن داده ها مربوط می شود.
تمرینات
- پنج نوع خطای صحت/دقت مرتبط با اطلاعات جغرافیایی چیست؟یک مثال از هر نوع خطا ارائه دهید.
- با توجه به توصیف دقت موقعیتی مرزهای تالاب، یک ویژگی نقشه را مورد بحث قرار دهید که مرزهای آن ذاتا مبهم و دشوار است.