مدیریت پایگاه داده های جغرافیایی
هدف یادگیری
هدف این پست، درک ویژگیهای اساسی یک سیستم مدیریت پایگاه داده رابطهای است.
پایگاه داده مجموعهای ساختار یافته از فایلهای داده است. سیستم مدیریت پایگاه داده (DBMS) یک بسته نرمافزاری است که امکان ایجاد، ذخیرهسازی، نگهداری، دستکاری و بازیابی مجموعه دادههای بزرگی را که در یک یا چند فایل توزیع شدهاند، فراهم میکند. یک DBMS و عملکردهای مرتبط با آن معمولاً از طریق بستههای نرمافزاری تجاری مانند Microsoft Access، Oracle، FileMaker Pro یا Avanquest MyDataBase قابل دسترسی هستند. مدیریت پایگاه داده عموماً به مدیریت دادههای جدولی در قالب ردیفها و ستونها اشاره دارد و اغلب در فعالیتهای شخصی، تجاری، دولتی و علمی مورد استفاده قرار میگیرد. سیستمهای مدیریت پایگاه داده جغرافیایی، علاوه بر عملکرد یک DBMS، اطلاعات جغرافیایی خاصی را نیز در مورد هر نقطه داده، مانند هویت، موقعیت، شکل و جهت، شامل میشوند.
مدلهای مختلفی از پایگاههای داده وجود دارند، از جمله مدلهای مسطح، سلسلهمراتبی، شبکهای و رابطهای (Worboys 1995؛ Jackson 1999). پایگاه داده مسطح اساساً مشابه یک صفحه گسترده است که در آن تمام دادهها در یک جدول واحد و بزرگ ذخیره میشوند (شکل ۵٫۴ “پایگاه داده تخت”). یک پایگاه داده سلسلهمراتبی، که مدل نسبتاً سادهای است، دادهها را در یک رابطه “یک به چند” در سطوح مختلف سازماندهی میکند (شکل ۵٫۵ “پایگاه داده سلسلهمراتبی”). نمونههای رایج این مدل شامل درختهای فیلوژنتیک برای طبقهبندی گیاهان و جانوران و درختهای تبارشناسی خانوادگی هستند که روابط والد-فرزند را نشان میدهند. پایگاه دادههای شبکه مشابه پایگاههای داده سلسلهمراتبی هستند، اما از آنجا که آنها از روابط “چند به چند” نیز پشتیبانی میکنند (شکل ۵٫۶ “پایگاه داده شبکه”), این قابلیت گسترش یافته، انعطافپذیری بیشتری در جستجوی مجموعه دادهها فراهم میآورد و افزونگی احتمالی اطلاعات را کاهش میدهد. با این حال، هر دو مدل سلسلهمراتبی و شبکه، بسته به اندازه پایگاههای داده و تعداد تعاملات بین نقاط داده، میتوانند پیچیده شوند. نرمافزارهای مدرن سیستمهای اطلاعات جغرافیایی (GIS) معمولاً از مدل چهارمی استفاده میکنند که به عنوان پایگاه داده رابطهای شناخته میشود (Codd 1970).
شکل ۵٫۴ پایگاه داده مسطح
شکل ۵٫۵ پایگاه داده سلسله مراتبی
شکل ۵٫۶ پایگاه داده شبکه
سیستم های مدیریت پایگاه داده رابطه ای
سیستم مدیریت پایگاه داده رابطهای (RDBMS) مجموعهای از جداول است که به گونهای به هم متصل شدهاند که میتوان به دادهها دسترسی داشت بدون اینکه نیاز به سازماندهی مجدد جداول باشد. جداول به نحوی طراحی میشوند که هر ستون نمایانگر یک ویژگی خاص است (مثلاً نوع خاک، شماره پین، نام خانوادگی، سطح زمین) و هر ردیف شامل یک نمونه منحصر به فرد از دادهها برای آن ویژگی ستونی است (مثلاً خاکهای دهلی ساندز، ۵۵۵۵، اسمیت، ۴۱۲٫۳ هکتار).
در مدل رابطهای، هر جدول (که به طور غریزی به آن رابطه گفته میشود) از طریق کلیدهای از پیش تعیین شده به جدول دیگر متصل میشود (تاریخ ۱۹۹۵). کلید اصلی ویژگی (ستونی) است که مقدار آن به طور منحصر به فرد یک رکورد (ردیف) خاص را در رابطه (جدول) مشخص میکند. کلید اصلی نباید مقادیر گمشده داشته باشد، زیرا مقادیر گمشده نشاندهنده موجودیتهای غیرمنحصر به فردی هستند که قانون اساسی کلید اصلی را نقض میکنند. کلید اصلی در یک جدول، به یک ویژگی مشابه در جدولهای ثانویه (و ممکن است در جداول سوم، چهارم و غیره) مربوط میشود که به آن کلید خارجی گفته میشود. این ساختار باعث میشود که تمام اطلاعات جدول اول به طور مستقیم با اطلاعات جدول دوم از طریق کلیدهای اصلی و خارجی مرتبط شوند؛ از این رو سیستم مدیریت پایگاه داده رابطهای نامیده میشود. با وجود این پیوندها، جداول داخل پایگاه داده میتوانند ساده نگه داشته شوند و در نتیجه محاسبات و پیچیدگیهای فایل کاهش یابد. این فرآیند میتواند در بسیاری از جداول تکرار شود تا زمانی که هر جدول حاوی یک کلید خارجی باشد که با کلید اصلی جدول دیگر مطابقت دارد.
مدل رابطهای دو مزیت اصلی نسبت به سایر مدلهای پایگاه داده که پیشتر توضیح داده شد، دارد. اولاً، هر جدول میتواند به طور جداگانه تهیه، نگهداری و ویرایش شود. این امر بهویژه هنگامی مفید است که اندازه بالقوه عظیم بسیاری از پایگاههای داده مدرن امروزی در نظر گرفته شود. دوم، جداول ممکن است به طور جداگانه نگهداری شوند تا زمانی که نیاز به یک پرس و جو یا تجزیه و تحلیل خاصی باشد که جداول را به هم مرتبط کند. این روش کارایی بالایی برای پردازش اطلاعات در یک پایگاه داده خاص ایجاد میکند.
ممکن است برای خواننده آشکار شود که در این مدل، پتانسیل زیادی برای افزونگی وجود دارد، زیرا هر جدول باید دارای ویژگیای باشد که با ویژگیهای مشابه در جداول دیگر مطابقت دارد. بنابراین، افزونگی باید در یک RDBMS به طور فعال نظارت و مدیریت شود. برای انجام این کار، مجموعهای از قوانین به نام اشکال عادی ایجاد شده است (Codd 1970). سه فرم عادی اساسی وجود دارد. اولین فرم عادی (شکل ۵٫۷ “نقض اولین فرم عادی (بالا) و اصلاح آن (پایین)”) به پنج شرط اشاره دارد که باید رعایت شوند (تاریخ ۱۹۹۵). این شروط به شرح زیر هستند:
- ترتیب ردیفها وجود ندارد.
- هیچ ترتیبی برای ترتیب ستونها وجود ندارد.
- هر ردیف منحصر به فرد است.
- هر سلول حاوی یک و تنها یک مقدار است.
- تمام مقادیر در یک ستون باید به یک موضوع مربوط شوند.
شکل ۵٫۷ اولین نقض فرم عادی (بالا) و رفع (زیر)
دومین فرم عادی بیان میکند که هر ستونی که کلید اصلی نیست، باید به کلید اصلی وابسته باشد. این امر با حذف پتانسیل وجود چندین کلید اصلی در جداول مختلف، افزونگی را کاهش میدهد. این مرحله معمولاً شامل ایجاد جداول جدید برای حفظ فرآیند عادیسازی است.
شکل ۵٫۸ دوم نقض فرم عادی (بالا) و رفع (زیر)
سومین فرم عادی بیان میکند که همه کلیدهای غیر اصلی باید به کلید اصلی وابسته باشند، در حالی که کلید اصلی مستقل از سایر کلیدهای غیر اصلی باقی میماند. این فرم بهطور زیرکانهای توسط کنت (۱۹۸۳) خلاصه شده است: “راهنمایی ساده برای پنج فرم رسمی در نظریه پایگاه داده رابطهای” (Kent, W. 1983). او با کنایه اشاره کرد که تمام کلیدهای غیر اصلی باید “واقعیتی در مورد کلید، کل کلید و چیزی جز کلید را بیان کنند.” تکرار این نقلقول پاسخی است که او به این صورت داد: “پس به من کمک کن، کاد” (ارتباط شخصی با فورسمن، ۱۹۸۹).
شکل ۵٫۹ سومین نقض فرم عادی (بالا) و رفع (زیر)
اتصال و ارتباط
یک مزیت اضافی RDBMS این است که به دادههای ویژگی در جداول جداگانه اجازه میدهد تا بهصورت post hoc پیوند داده شوند. دو عملیاتی که معمولاً برای انجام این کار مورد استفاده قرار میگیرند، عملیات Join و Relate هستند.
عملیات Join فیلدهای یک جدول را با استفاده از یک ویژگی یا فیلد مشترک در هر دو جدول به جدول دوم اضافه میکند. این روش معمولاً برای ترکیب اطلاعات ویژگی از یک یا چند جدول داده غیرمکانی (مثلاً اطلاعات گرفتهشده از گزارشها یا اسناد) با یک لایه عارضه GIS که ویژگیهای فضایی دارد، استفاده میشود. نوع دوم اتصال، اطلاعات ویژگیها را بر اساس موقعیت مکانی و ارتباط آنها به جای عوارض مشترک ترکیب میکند. در ArcGIS، سه نوع اتصال فضایی وجود دارد: کاربران ممکن است (۱) هر عارضه را با نزدیکترین ویژگی مطابقت دهند، (۲) هر عارضه را با ویژگی که بخشی از آن است یا (۳) هر عارضه را با ویژگی که آن را قطع میکند، مطابقت دهند.
از طرف دیگر، عملیات Relate بهطور موقت دو لایه یا جدول نقشه را به هم مرتبط میکند در حالی که آنها را از نظر فیزیکی جدا نگه میدارد. Relateها دوطرفه هستند، بنابراین میتوان به دادهها از یکی از جداول با انتخاب رکوردها در جدول دیگر دسترسی پیدا کرد. این عملیات همچنین امکان ارتباط سه یا چند جدول را در صورت لزوم فراهم میکند.
گاهی اوقات ممکن است مشخص نباشد که از کدام عملیات باید استفاده کرد. بهطور کلی، Join برای نمونههایی که شامل روابط یکبهیک یا چندبهیک هستند، مناسب است. Join همچنین بهدلیل این که دادههای دو جدول به راحتی در جدول خروجی واحد قابل مشاهده هستند، سودمند است. از سوی دیگر، استفاده از Relateها برای همه روابط جدول (یکبهیک، یکبهچند، چندبهیک و چندبهچند) مناسب است. با این حال، آنها ممکن است زمان دسترسی به رایانه را کاهش دهند، بهویژه اگر جداول بزرگ باشند یا در مکانهای دور از هم ذخیره شده باشند.
خوراکی های کلیدی
- سیستم های مدیریت پایگاه داده می توانند مسطح، سلسله مراتبی، شبکه ای یا رابطه ای باشند.
- سیستم های مدیریت پایگاه داده رابطه ای (RDBMS) از کلیدهای اولیه و کلیدهای خارجی برای پیوند دادن جداول داده استفاده می کنند.
- مدل RDBMS با استفاده از سه “شکل عادی” اساسی، افزونگی داده ها را کاهش می دهد.
تمرین
در جدول زیر سه تخلف از اشکال عادی را مشخص کنید.
مربی | کلاس | شماره کلاس | ثبت نام |
لنون | حساب دیفرانسیل و انتگرال پیشرفته | ۱۰۰۷۳ | ۳۴ |
مک کارتنی | تربیت بدنی مقدماتی | ۱۰۰۴۵ | ۲۳ |
هریسون | تعمیر خودرو و فمینیسم | ۱۰۰۴۵ | ۵۴ |
ستاره، بهترین | فیزیک کوانتوم | ۱۰۰۲۳ | ۳۹ |