مدیریت داده های جغرافیایی
هر کاربر دادههای جغرافیایی با چالشهایی مانند به دست آوردن، سازماندهی، ذخیره، اشتراکگذاری و تجسم دادههای خود روبهرو است. تنوع در قالبها و ساختارهای داده، بهعلاوه تفاوتهای کیفیت دادههای مکانی، میتواند منجر به انباشتگی سردرگم کنندهای از ابزارهای مفید و غیرقابل استفاده ای از اطلاعات فضایی شود که باید در یک مجموعه داده واحد و یکپارچه گردآوری، پردازش و مدیریت شوند. این پست به ارتباط اساسی پیرامون جمعآوری دادهها و مدیریت قالبها و کیفیتهای مختلف دادههای مکانی که برای استفاده در پروژههای سیستمهای اطلاعات جغرافیایی (GIS) مدرن ضروری است، میپردازد.
اکتساب داده های جغرافیایی
هدف یادگیری
هدف این بخش معرفی انواع دادهها، مقیاسهای اندازهگیری و روشهای جمعآوری دادهها است.کسب دادههای جغرافیایی یکی از عوامل کلیدی در هر پروژه سیستم اطلاعات جغرافیایی (GIS) به شمار میآید. برآوردها نشان میدهند که جمعآوری دادهها معمولاً ۶۰ تا ۸۰ درصد از زمان و هزینهای را که در هر پروژه صرف میشود، به خود اختصاص میدهد. بنابراین، ضروری است که پروژههای GIS با دقت به اهداف خود پرداخته و فرآیند جمعآوری دادههای مکانی را به شیوهای کارآمد و مؤثر پیش برند. این پست به بررسی انواع مختلف دادهها و منابع موجود برای استفاده در GIS میپردازد.
انواع داده ها
نوع دادهای که برای درک یک موجودیت خاص به کار میبریم، بر اساس سه عامل اصلی تعیین میشود: (۱) آنچه در حال بررسی هستیم، (۲) آنچه میخواهیم در مورد آن موجودیت بدانیم و (۳) توانایی ما در اندازهگیری آن موجودیت در مقیاس دلخواه. رایجترین انواع دادهها برای استفاده در GIS شامل رشتههای الفبایی، اعداد، مقادیر بولی، تاریخها و دادههای باینری هستند.
رشته الفبایی یا متن نوع دادهای است که شامل هر ترکیب سادهای از حروف و اعداد است که ممکن است کلمات معناداری را تشکیل دهند یا نه.
نوع داده اعداد به دو دستهی ممیز شناور و عدد صحیح تقسیم میشود. دادههای ممیز شناور شامل اعدادی هستند که دارای اعشار و یک عدد صحیح میباشند. در مقابل، اعداد صحیح مقادیر دادهای هستند که ارقام اعشاری ندارند. اعداد صحیح بسته به تعداد ارقام مهمشان میتوانند کوتاه یا بلند باشند. این اعداد همچنین بر اساس مفهوم “بیت” در کامپیوترها تعریف میشوند. همانطور که میدانید، بیت کوچکترین واحد اطلاعات در یک کامپیوتر است و میتواند تنها یکی از دو مقدار ۱ یا ۰ را ذخیره کند. بنابراین، یک ویژگی ۸ بیتی از هشت ۱ یا ۰ تشکیل شده است (بهعنوان مثال، ۱۰۰۱۰۰۱۱، ۰۰۰۱۱۰۱۱، ۱۱۱۰۰۱۱۱).
اعداد صحیح کوتاه معمولاً ۱۶ بیتی هستند و میتوانند اعدادی بین ۳۲۷۶۸- تا ۳۲۷۶۷ یا از ۰ تا ۶۵۵۳۵ را نشان دهند، بسته به اینکه عدد با علامت باشد یا بدون علامت. اعداد صحیح طولانی، که به طور متناوب مقادیر ۳۲ بیتی هستند، میتوانند اعدادی از ۲,۱۴۷,۴۸۳,۶۴۸- تا ۲,۱۴۷,۴۸۳,۶۴۷ یا از ۰ تا ۴,۲۹۴,۹۶۷,۲۹۵ را نمایش دهند.
مقدار دقیق ممیز شناور مانند عدد صحیح طولانی، ۳۲ بیت فضا میگیرد. با این حال، این نوع داده مقدار حداکثر ۷ بیت را در سمت چپ اعشار (با حداکثر مقدار ۱۲۸ یا ۱۲۷ در صورت امضا) و حداکثر ۲۳ بیت را در سمت راست اعشار (تقریباً ۷ رقم اعشاری) اختصاص میدهد. همچنین، مقدار ممیز شناور با دقت دوگانه اساساً از دو مقدار ۳۲ بیتی به عنوان یک مقدار واحد استفاده میکند. به همین دلیل، شناورهای با دقت دوگانه میتوانند مقادیری با حداکثر ۱۱ بیت در سمت چپ اعشار و مقادیر حداکثر ۵۲ بیتی در سمت راست اعشار (تقریباً ۱۶ رقم اعشاری) نمایش دهند (شکل ۵٫۱ “نقطه شناور با دقت دوگانه” که مقدار ۶۴ بیتی است و در کامپیوتر ذخیره میشود).
شکل ۵٫۱ ممیز شناور دقیق دوگانه (مقدار ۶۴ بیتی)، همانطور که در یک کامپیوتر ذخیره می شود
مقادیر بولی، تاریخ و باینری از پیچیدگی کمتری برخوردارند. مقادیر بولی تنها شامل مقادیری هستند که بر اساس اعمال عملگرهای بولی مانند AND، OR و NOT بهطور صحیح یا نادرست ارزیابی میشوند. نوع داده تاریخ معمولاً خود توضیحی است و بهطور ویژه به ذخیرهسازی و نمایش تاریخها و زمانها اختصاص دارد. در نهایت، نوع داده باینری ویژگیهایی را نمایش میدهد که مقادیر آنها فقط میتوانند ۱ یا ۰ باشند.
مقیاس اندازه گیری
نوع دادههایی که برای تحلیل و درک یک موجودیت خاص استفاده میکنیم، به سه عامل بستگی دارد: (۱) آنچه که در حال بررسی هستیم، (۲) آنچه که میخواهیم از آن موجودیت بدانیم و (۳) توانایی ما در اندازهگیری آن موجودیت در مقیاسهای مختلف. مقیاسهای اندازهگیری برای گروهبندی دادهها بر اساس سطح پیچیدگی عمل میکنند (استیونز، ۱۹۴۶). برای اهداف تجزیه و تحلیل در سیستمهای اطلاعات جغرافیایی (GIS)، مقیاسهای اندازهگیری را میتوان به دو دسته کلی تقسیم کرد: دادههای اسمی و ترتیبی که نشاندهنده دادههای طبقهبندی هستند و دادههای بازهای و نسبی که نمایانگر دادههای عددی میباشند.
مقیاس اسمی سادهترین مقیاس اندازهگیری است که تنها به نامگذاری دادهها پرداخته و امکان مقایسههای کمی بین دادهها را نمیدهد. به عنوان مثال، اگر به مجموعهای از نقاط اطلاعات اسمی مانند نامهای «لسآنجلس» یا «نیویورک» اختصاص دهیم، تنها موقعیت جغرافیایی این شهرها مشخص میشود بدون اینکه ویژگیهای دیگری مانند جمعیت یا تاریخچه رایگیری بیان شوند. نمونههای دیگر دادههای اسمی عبارتند از: نام خانوادگی، رنگ چشم، نوع کاربری زمین، قومیت و جنسیت.
دادههای ترتیبی اطلاعات را بر اساس ترتیب خاصی مرتب میکنند و به همین دلیل نسبت به دادههای اسمی دقت بیشتری دارند. دادههای ترتیبی نشاندهنده موقعیتها یا رتبهها هستند، مانند «اول»، «دوم»، «سوم» و غیره. این مقیاسها میتوانند برچسبهایی مانند «بسیار ناراضی»، «ناراضی»، «راضی»، «بسیار راضی» داشته باشند. با اینکه دادههای ترتیبی موقعیت رتبهای را نسبت به سایر نقاط داده نشان میدهند، اما تفاوت کمی دقیق بین این رتبهها را مشخص نمیکنند. برای مثال، اگر رتبههای دوندهها را در یک مسابقه مشخص کنیم، مقیاس ترتیبی نشان نمیدهد که برنده با چه مدت زمانی نفر دوم را پشت سر گذاشته است. بنابراین، نمیتوان عملیات حسابی را با دادههای ترتیبی انجام داد؛ تنها ترتیب اهمیت دارد.
دادههای بازهای این امکان را فراهم میکنند که گزارههای کمی دقیقتری درباره ویژگیها بیان شوند. در این مقیاس، فواصل مشخصی بین دادهها وجود دارد و میتوان تفاوتها را اندازهگیری کرد. نمونههای رایج دادههای بازهای شامل ارتفاع و دما هستند. به عنوان مثال، میتوان گفت که ۳۰ درجه فارنهایت، ۵ درجه فارنهایت گرمتر از ۲۵ درجه فارنهایت است. ویژگی مهم مقیاس بازهای این است که صفر در این مقیاس معنای مطلق ندارد. به عبارت دیگر، صفر نشاندهنده نبود چیزی نیست. برای مثال، ۰ درجه فارنهایت به معنای عدم وجود دما نیست؛ همچنین ۰ فوت ارتفاع به معنای نبود ارتفاع نیست، بلکه این مقدار نشاندهنده سطح میانگین دریا است.
دادههای نسبی مشابه دادههای بازهای هستند، اما تفاوت اصلی آنها این است که صفر در مقیاس دادههای نسبی معنای واقعی دارد. به عنوان مثال، تراکم جمعیت نمونهای از دادههای نسبی است که در آن تراکم ۰ نشاندهنده عدم وجود افراد در منطقه است. مشابه این، مقیاس دمای کلوین نیز یک مقیاس نسبی است، چرا که ۰ کلوین نشاندهنده عدم وجود گرما (یا دما) است.
برای مجموعه دادههای عددی، مقادیر دادهها میتوانند گسسته یا پیوسته باشند. دادههای گسسته شامل تعداد محدودی از مقادیر ممکن هستند، در حالی که دادههای پیوسته میتوانند مقادیر نامحدودی را نشان دهند. بهعنوان مثال، تعداد درختان بالغ در یک ملک ممکن است عددی بین ۱ تا ۱۰۰ باشد (البته بهطور تقریبی)، اما ارتفاع این درختان یک داده پیوسته است، زیرا میتواند مقادیر نامحدودی داشته باشد (مثلاً ۲۰ فوت، ۲۰٫۱ فوت، ۲۰٫۱۵ فوت و غیره).
جمع آوری داده های اولیه
اکنون که با انواع مختلف دادهها و مقیاسهای اندازهگیری موجود برای استفاده در GIS آشنا شدیم، باید توجه خود را معطوف کنیم به این که چگونه میتوان این دادهها را جمعآوری کرد. جمعآوری دادههای اولیه یک روش اکتساب مستقیم داده است که معمولاً با نوعی تلاش میدانی یا تخصصی در زمینه مرتبط صورت میگیرد. در مورد دادههای برداری، اطلاعات بهطور معمول از سیستمهای موقعیتیابی جهانی (GPS) یا سایر تجهیزات نقشهبرداری مانند ایستگاههای توتال بهدست میآیند (شکل ۵٫۲ “واحد GPS (چپ) و ایستگاه توتال (راست)”).
ایستگاههای توتال ابزارهای تخصصی و مهمی در جمعآوری دادهها هستند که ترکیبی از تئودولیت (یا ترانزیت) و ابزار اندازهگیری فاصله شیب از واحد تا نقطه مشاهدهشده را در خود دارند. تئودولیت زاویههای افقی و عمودی را اندازهگیری میکند، در حالی که ابزار اندازهگیری فاصله شیب به کمک آن، امکان محاسبه دقیق مسافت را فراهم میآورد. استفاده از ایستگاه توتال به تیمهای میدانی این امکان را میدهد که بهسرعت و با دقت توپوگرافی یک منطقه خاص را ثبت کنند.
شکل ۵٫۲ واحد GPS (چپ) و توتال استیشن (راست)
در مورد GPS، واحدهای دستی به دادههای موقعیتی از ماهوارهها دسترسی دارند و این اطلاعات را برای استفادههای بعدی ثبت میکنند. شبکهای از بیست و چهار ماهواره ناوبری در سراسر کره زمین مستقر است که مختصات دقیقی را برای هر نقطه از سطح زمین فراهم میآورد (شکل ۵٫۳ “تصویربرداری از زمین با ماهواره برای جمعآوری دادههای اولیه”). حفظ خط دید به چهار یا بیشتر از این ماهوارهها به کاربر این امکان را میدهد که اطلاعات موقعیت مکانی دقیقی به دست آورد. این نقاط مکانی میتوانند بهطور جداگانه جمعآوری شوند یا بسته به نیاز کاربر، به یکدیگر پیوند داده شده و خطوط یا چندضلعیها را شکل دهند. دادههای ویژگیهایی مانند نوع کاربری زمین، شماره قطب تلفن و نام رودخانه میتوانند بهطور همزمان توسط کاربر وارد شوند. سپس این دادههای مکانی و ویژگیها میتوانند برای تجسم در GIS بارگذاری شوند. بسته به نوع و مدل GPS، این بارگذاری معمولاً به یک فرآیند تبدیل فایل از طریق نرمافزار اختصاصی سازنده واحد GPS نیاز دارد. با این حال، منابع آنلاین رایگانی وجود دارند که میتوانند دادههای GPS را از یک فرمت به فرمت دیگر تبدیل کنند. GPSBabel یکی از این منابع آنلاین است (http://www.gpsvisualizer.com/gpsbabel).
علاوه بر واحد GPS معمولی نشان دادهشده در شکل ۵٫۲ “واحد GPS (چپ) و ایستگاه توتال (راست)”، GPS بهطور فزایندهای در سایر فناوریهای جدید گنجانده میشود. بهعنوان مثال، تلفنهای هوشمند اکنون بهطور استاندارد قابلیتهای GPS را بهعنوان یک جزء تکنولوژیکی دارند. این واحدهای تلفن/GPS دقتی قابل مقایسه با واحدهای GPS مستقل با قیمت مشابه دارند و بهطور چشمگیری در تسهیل جمعآوری و اشتراکگذاری دادههای قابل حمل و در زمان واقعی با عموم مردم نقش دارند. گسترش این فناوری منجر به افزایش استفاده از روشهای جمعآوری دادههای جمعسپاری شده شده است. جمعسپاری یک روش جمعآوری داده است که به موجب آن کاربران بهطور آزادانه در ساخت پایگاههای داده فضایی مشارکت میکنند. این روش بهطور گستردهای در برنامههایی مانند MapShare TomTom، Google Earth، Bing Maps و ArcGIS استفاده میشود.
دادههای رستری که از طریق ثبت مستقیم بهدست میآیند، معمولاً از منابع سنجش از راه دور بهدست میآیند (شکل ۵٫۳ “تصویربرداری از زمین با ماهواره برای جمعآوری دادههای اولیه”). دادههای سنجش از راه دور این مزیت را دارند که نیاز به دسترسی فیزیکی به منطقهای که تصویربرداری میشود، از بین میرود. علاوه بر این، میتوان بخشهای وسیعتری از زمین را در زمان و با تلاش کمتر شناسایی کرد. با این حال، برای دادههای سنجش از راه دور نیاز به اعتبارسنجی وجود دارد تا اطمینان حاصل شود که حسگر نهتنها بهدرستی کار میکند، بلکه بهطور صحیح برای جمعآوری اطلاعات مورد نظر کالیبره شده است. ماهوارهها و دوربینهای هوایی از مهمترین منابع دادههای رستری هستند (پست قبلی “مدلهای داده برای GIS”، مبحث “تصاویر ماهوارهای”).
شکل ۵٫۳ تصویربرداری زمین از ماهواره که داده های اولیه را می گیرد
جمع آوری داده های ثانویه
جمعآوری دادههای ثانویه یک روش غیرمستقیم است که از حجم وسیعی از دادههای مکانی موجود در فرمتهای رقومی و نسخههای چاپی استفاده میکند. قبل از آغاز هر پروژه GIS، توصیه میشود که منابع آنلاین برای دادههای GIS موجود استخراج شوند تا احتمالاً نیازهای نقشهبرداری شما بدون نیاز به ایجاد دادهها از ابتدا برآورده شود. دادههای رقومی GIS از منابع مختلفی در دسترس هستند، از جمله آژانسهای بینالمللی (مانند CGIAR، CIESIN، سازمان ملل، بانک جهانی و غیره)، دولتهای فدرال (مانند USGS، USDA، NOAA، USFWS، NASA، EPA، سرشماری ایالات متحده و غیره)، دولتهای ایالتی (مانند CDFG، Teale Data Center، INGIS، MARIS، NH GIS Resources و غیره)، دولتهای محلی (مانند SANDAG، RCLIS و غیره)، وبسایتهای دانشگاهی (مانند UCLA، دوک، استنفورد، دانشگاه شیکاگو، پورتال دادههای فضایی ایندیانا و غیره) و وبسایتهای تجاری (مانند ESRI، GeoEye، Geocomm و غیره). این دادههای ثانویه در انواع فایلها، گسترهها و اندازههای مختلف در دسترس هستند و معمولاً برای استفاده در بیشتر بستههای نرمافزاری GIS آماده هستند. اغلب این دادهها رایگان هستند، اما بسیاری از وبسایتها برای دسترسی به اطلاعات اختصاصی که خود توسعه دادهاند، هزینهای دریافت میکنند.
اگرچه این منابع داده بیشتر به فرمت رقومی تبدیل شدهاند و برای استفاده در GIS بهطور صحیح پیشبینی شدهاند، اما اطلاعات مکانی زیادی وجود دارند که از منابع غیر رقومی نیز میتوان بهدست آورد. بهعنوان مثال، نقشههای کاغذی ممکن است حاوی اطلاعات فعلی یا تاریخی باشند که در فرمت دیجیتال موجود نیستند. در این موارد، میتوان از فرآیند رقومی سازی برای تبدیل نسخه کاغذی به فایلهای رقومی استفاده کرد. سه روش اصلی برای رقومی سازی اطلاعات مکانی وجود دارد: دو روش دستی و یک روش خودکار.
رقومی سازی با تبلت یک روش دستی برای جمعآوری داده است که در آن کاربر اطلاعات مختصات را از طریق استفاده از تبلت دیجیتال وارد رایانه میکند. ابتدا یک نقشه کاغذی روی تبلت دیجیتال با نور پسزمینه قرار میگیرد. نور پسزمینه به مشاهده راحتتر ویژگیهای روی نقشه کمک میکند و از خستگی چشم میکاهد. سپس مختصات ویژگیهای نقطهای، خطی و یا چندضلعیها روی نقشه کاغذی بهصورت رقومی وارد میشوند، در حالی که کاربر با استفاده از یک قلم دیجیتال که شبیه به ماوس چنددکمهای است، در مسیر مشخصشده برای هر ویژگی “کلیک” میکند. پس از اتمام فرآیند رقومی سازی، فایل رقومی حاصل باید به درستی ارجاع جغرافیایی شود تا اطمینان حاصل شود که دادهها به درستی با دیگر مجموعه دادههای موجود هماهنگ هستند.
رقومی سازی هدآپ دومین روش دستی جمعآوری دادهها است که به رقومی سازی «روی صفحه» نیز معروف است. این روش میتواند هم روی نقشههای کاغذی و هم روی فایلهای رقومی موجود اعمال شود. ابتدا باید نقشه کاغذی با وضوح مناسب اسکن شود تا ویژگیهای مربوطه بهطور واضح قابل مشاهده باشند. سپس تصویر دیجیتال باید ثبت و تطابق دادهها با یک سیستم مختصات موجود انجام شود. برای این کار، کاربر نقاط کنترل را وارد کرده و تصویر اسکنشده را به مختصات دنیای واقعی تبدیل میکند. پس از این، کاربر میتواند به سادگی به مناطق خاصی از نقشه زوم کند و عوارض را مانند روش رقومی سازی تبلت ردیابی کند. هنگامی که از تصاویر ماهوارهای یا عکسهای هوایی بهعنوان مبنا استفاده میشود، رقومی سازی هدآپ بسیار آسانتر است.
روش خودکار رقومی سازی سومین روش جمعآوری دادههای ثانویه است که نیازمند اسکن نقشه کاغذی و استخراج اطلاعات موجود در آن است. این روش معمولاً به یک بسته نرمافزاری خاص نیاز دارد که بتواند تصاویر رستری را به خطوط برداری تبدیل کند. اسکن باید با وضوح بسیار بالا و کیفیت تمیز انجام شود، زیرا هر نقص در تصویر میتواند منجر به ایجاد دادههای نادرست در نسخه رقومی شود. در صورتی که اسکن تمیز در دسترس نباشد، این روش معمولاً سریعتر از روشهای رقومی سازی دستی عمل میکند و برای زمانی که نقشههای متعددی باید رقومی شوند یا زمان محدود باشد، گزینه مناسبی است. در بسیاری از موارد، از یک روش نیمهخودکار استفاده میشود که در آن ابتدا نقشه اسکن و بردار میشود و سپس یک جلسه رقومی سازی برای اصلاح و ویرایش خطاها انجام میشود.
استفاده از گزارشها و اسناد آخرین روش جمعآوری دادههای ثانویه است که قابل ذکر است. در این روش، کاربر اطلاعات گزارشها و اسناد را مستقیماً وارد جدول ویژگیهای یک فایل GIS رقومی موجود میکند که شامل تمامی نقاط، خطوط و چندضلعیهای مربوطه است. بهعنوان مثال، اطلاعات جدید مختص به سرشماری ممکن است پس از یک مطالعه علمی در دسترس قرار گیرد. در این صورت، کاربر GIS بهسادگی فایل GIS مربوط به سرشماری را دانلود کرده و شروع به وارد کردن اطلاعات گزارش/مطالعه به جدول ویژگیها میکند. اگر جداول دادهها بهطور دیجیتال در دسترس باشند، استفاده از توابع «پیوست» و «ارتباط» در GIS میتواند بسیار مفید باشد، زیرا این توابع بسیاری از فرآیندهای وارد کردن دادهها را خودکار میکنند (پست “پیوست و ارتباط”).
خوراکی های کلیدی
- رایج ترین انواع داده های موجود برای استفاده در GIS رشته های الفبایی، اعداد، مقادیر بولی، تاریخ ها و باینری ها هستند.
- داده های اسمی و ترتیبی نشان دهنده داده های طبقه بندی هستند، در حالی که داده های فاصله و نسبت داده های عددی را نشان می دهند.
- روشهای جمعآوری دادهها از منابع اولیه یا ثانویه مشتق شدهاند.
تمرینات
- داده های زیر از کدام مقیاس اندازه گیری به دست آمده است؟
- نمره شادی من در مقیاس ۱ تا ۱۰ = ۷
- وزن من = ۱۹۲ پوند.
- شهری که من در آن زندگی می کنم = شهر کالور
- دمای فعلی بدن من = ۹۹٫۸ درجه فارنهایت
- تعداد چیزبرگرهایی که می توانم قبل از بیهوشی بخورم = ۱۲ عدد
- شماره پلاک من = ۱LUVG1S
- حداقل دو روش مختلف برای افزودن اطلاعات از نقشه توپوگرافی USGS به مجموعه داده های GIS خود شرح دهید.