قابلیت‌های پیش‌بینی و عدم قطعیت جنگل‌های رگرسیون کوانتیل در تخمین پراکندگی فضایی مواد آلی خاک

یکی از وظایف اصلی در مطالعات نقشه برداری دیجیتالی خاک (DSM) تخمین توزیع مکانی متغیرهای مختلف خاک است. علاوه بر این، با این حال، ارزیابی عدم قطعیت این برآوردها به همان اندازه مهم است، چیزی که بسیاری از مطالعات DSM فعلی فاقد آن هستند. روش‌های یادگیری ماشینی (ML) به طور فزاینده‌ای در این زمینه علمی استفاده می‌شوند، که اکثر آنها قابلیت‌های تخمین عدم قطعیت ذاتی را ندارند. یک راه حل برای این، استفاده از روش‌های خاص ML است که قابلیت‌های پیش‌بینی پیشرفته را همراه با معیارهای تخمین عدم قطعیت ذاتی، مانند جنگل‌های رگرسیون چندکی (QRF) ارائه می‌کند. در مقاله حاضر، قابلیت های پیش بینی و عدم قطعیت روش های QRF، جنگل های تصادفی (RF) و زمین آماری مورد ارزیابی قرار گرفت. تایید شد که QRF نتایج برجسته ای را در پیش بینی ماده آلی خاک (OM) در منطقه مورد مطالعه به نمایش گذاشته است. به ویژه، R2 بسیار بالاتر از روش های زمین آماری بود، به این معنی که تنوع بیشتر توسط مدل خاص توضیح داده می شود. علاوه بر این، قابلیت‌های عدم قطعیت آن همانطور که در نقشه‌های عدم قطعیت ارائه شده است، نشان می‌دهد که می‌تواند تخمین خوبی از عدم قطعیت با نمایش متمایز از تغییرات محلی در بخش‌های خاص منطقه ارائه دهد، چیزی که مزیت قابل توجهی به‌ویژه برای پشتیبانی تصمیم‌گیری در نظر گرفته می‌شود. اهداف

کلید واژه ها:

جنگل های رگرسیون چندکی ; جنگل های تصادفی ; زمین آمار ; یادگیری ماشینی ؛ مواد آلی خاک ; عدم قطعیت پیش بینی

۱٫ مقدمه

نقشه برداری دیجیتالی خاک (DSM)، همچنین به عنوان نقشه پیش بینی خاک یا نقشه برداری پدومتریک شناخته می شود، به ایجاد نقشه های دیجیتالی اشاره دارد که شامل اطلاعات فضایی خاک، مانند نوع خاک یا ویژگی های خاک است. این نقشه ها از ترکیب پارامترهای متعدد (خاک، آب و هوا، امداد و غیره) ایجاد می شوند و معمولاً توزیع مکانی پدیده های خاک را همراه با اطلاعات نسبی (مثلا عدم قطعیت برآورد) به تصویر می کشند.
DSM از سیستم‌های اطلاعات جغرافیایی (GIS)، سیستم‌های موقعیت‌یابی جهانی (GPS)، داده‌های طیفی سنجش از راه دور، داده‌های توپوگرافی حاصل از مدل‌های ارتفاعی دیجیتال (DEMs)، مدل‌های پیش‌بینی یا استنتاج و نرم‌افزار برای تجزیه و تحلیل داده‌ها استفاده گسترده می‌کند. برای مقابله با حجم زیادی از داده های مورد استفاده در DSM، از تکنیک ها و فناوری های نیمه خودکار برای به دست آوردن، پردازش و تجسم این داده ها استفاده می شود. یادگیری ماشینی (ML) و هوش مصنوعی (AI) برخی از فن‌آوری‌های نوآورانه هستند که به طور فزاینده‌ای در نقشه‌برداری خاک مورد استفاده قرار می‌گیرند و جذب آن‌ها در حال تغییر روشی است که دانشمندان خاک نقشه‌های خود را تولید می‌کنند [ ۱ ]. ML که در دهه ۱۹۹۰ به عنوان ابزاری برای DSM ظهور کرد [ ۲] به عنوان تمرین کامپیوتری برای استفاده از مدل‌های آماری مبتنی بر داده (و عمدتاً غیر خطی) تعریف می‌شود که برای یادگیری یک الگو و پیش‌بینی به مقدار زیادی از داده‌های ورودی متوسل می‌شود [ ۱ ].
بر اساس لئو بریمن [ ۳ ] دو پارادایم مدل سازی آماری متمایز شد: یک مدل داده و یک مدل الگوریتمی. مدل داده یک مدل انتزاعی است که عناصر داده را سازماندهی می کند و نحوه ارتباط آنها با یکدیگر و ویژگی های موجودات واقعی را استاندارد می کند، در حالی که یک مدل الگوریتمی مدلی است که از الگوریتم های ریاضی بر اساس عناصر داده استفاده می کند و تخمین می زند. مولفه های. یکی از الگوریتم‌های پرکاربرد برای این نوع مدل، جنگل‌های تصادفی (RF) است. RF یک روش یادگیری مجموعه ای برای طبقه بندی، رگرسیون و سایر وظایف است که با ساختن تعداد زیادی درخت تصمیم در زمان آموزش عمل می کند و به طور گسترده در DSM استفاده می شود [ ۴ ]. به عنوان مثال، بهترین نتایج را در تخمین OM خاک ارائه کرد [ ۵]، زمان آموزش را در طول فرآیند مدل سازی OM خاک کوتاه کرد و دقت مدل و توانایی پیش بینی آن را بهبود بخشید [ ۶ ]. در نهایت، با توجه به جان و همکاران. [ ۷ ]، RF بهترین مدل در بین سایر الگوریتم‌های ML مانند شبکه عصبی مصنوعی (ANN)، ماشین بردار پشتیبان (SVM) و رگرسیون مکعبی بود.
اغلب اوقات، محصولات DSM تخمینی از ویژگی های خاک توزیع شده در فضایی را نشان می دهند. این برآوردها شامل یک عنصر عدم قطعیت است که به طور مساوی در منطقه تحت پوشش DSM توزیع نشده است. اگر عدم قطعیت را به طور صریح به صورت مکانی کمی تعیین کنیم، این اطلاعات می‌تواند برای بهبود کیفیت DSM با بهینه‌سازی طراحی نمونه‌برداری استفاده شود [ ۸ ]. وادوکس و همکاران [ ۱] بیان کرد که در حالی که نتایج اعتبارسنجی متقاطع (مکانی) ممکن است توافق قوی بین ویژگی یا طبقه خاک پیش‌بینی‌شده و اندازه‌گیری شده را نشان دهد و بنابراین یک مدل ML با توانایی‌های پیش‌بینی بسیار بالا را تأیید می‌کند، یک کمی‌سازی عدم قطعیت پیش‌بینی‌های غیرواقعی را نشان می‌دهد که با عدم قطعیت بزرگ مشخص می‌شود. با این حال، اکثر روش‌های ML شامل RF به‌طور پیش‌فرض تخمین‌های عدم قطعیت را ارائه نمی‌کنند و تنها ۳۰ درصد از مطالعات اخیر خاک در بررسی ادبیات خود، عدم قطعیت مرتبط با پیش‌بینی را کمی‌سازی کردند.
یکی از روش‌های ML که به طور ذاتی به کمبود تخمین‌های عدم قطعیت می‌پردازد، جنگل‌های رگرسیون چندکی (QRF) است. QRF توسعه یافته RF است که توسط Nicolai Meinshausen [ ۹ ] توسعه یافته است که تخمین های غیر پارامتریکی از مقدار متوسط ​​پیش بینی شده و همچنین چندک های پیش بینی را ارائه می دهد. بنابراین تخمین‌های غیر پارامتری صریح فضایی عدم قطعیت مدل را با ارائه اطلاعات برای توزیع شرطی کامل متغیر پاسخ، و نه تنها در مورد میانگین شرطی [ ۱۰ ] امکان پذیر می‌کند. در نتیجه، QRF به طور بالقوه می تواند دقت بالای RF را با تخمین های عدم قطعیت داخلی ترکیب کند. با این حال، QRF علیرغم مزایایی که دارد به طور گسترده در مطالعات خاک مورد استفاده قرار نمی گیرد.
برای مثال Vaysse و Lagacherie [ ۱۱ ] آزمایشی را انجام دادند که در آن از QRF در یک منطقه معتدل مدیترانه با مجموعه داده کربن آلی خاک (SOC) قابل مقایسه از نظر وسعت منطقه، تراکم مشاهده و همگنی توزیع استفاده کردند. آنها ادعا می کنند که QRF در تفسیر الگوهای عدم قطعیت بهتر از RK عمل می کند و زمانی که نمونه برداری فضایی پراکنده است نسبت به سایر روش های مدل سازی مناسب تر است. در مطالعه Dharumarajan [ ۱۲] مدل QRF برای تخمین چند کیفیت مهم خاک کارناتاکای شمالی با توجه به معیارهای GlobalSoilMap استفاده شد. مدل QRF حداکثر تنوع را برای بسیاری از پارامترهای خاک گرفت و مقادیر خاک پیش‌بینی‌شده با حداقل خطا قابل اعتماد بود. QRF همچنین برای تولید نقشه‌های جهانی از ویژگی‌های خاک استفاده شد که به وضوح اهمیت ارزیابی کمی و کیفی و ارتباطات عدم قطعیت را برجسته می‌کند [ ۱۳ ]. در نهایت، در مطالعه ورونزی در سال ۲۰۱۹ [ ۱۴ ]، RF و QRF معتبرترین فواصل اطمینان را برای پیش‌بینی SOC ایجاد کردند. حتی اگر این به طور بالقوه برای استفاده های عملی مهم است، فواصل اطمینان نیز بسیار گسترده بود، بنابراین آنها پیشنهاد می کنند که این فواصل باید با دقت انجام شود.
در مطالعه حاضر، قابلیت پیش‌بینی به همراه ظرفیت ارزیابی عدم قطعیت QRF مورد بررسی قرار می‌گیرد. روش‌های زمین آماری رایج کریجینگ معمولی (OK) و کریجینگ با رانش خارجی (KED) با روش‌های ML RF و QRF در مورد OM خاک مقایسه شدند. نقشه های پیش بینی OM خاک به همراه نقشه عدم قطعیت ها نیز تهیه و ارائه شد. منطقه مورد مطالعه انتخاب شده در شمال یونان، در واحد منطقه ای کاستوریا و در کنار ساحل دریاچه اورستیادا است. تعداد کل ۴۱۴ نمونه خاک در یک دوره شش ساله در مکان های منحصر به فرد نمونه برداری تصادفی در پاییز جمع آوری شد. برای شناسایی موقعیت های نمونه گیری از گیرنده های GPS استفاده شد. یک مدل ارتفاع دیجیتال با وضوح بالا (DEM) برای استخراج محصولات توپوگرافی مانند جنبه، شیب، ارتفاع و غیره استفاده شد. همراه با تصاویر Sentinel-2، برای هر سال از دوره مطالعه ما، برای تولید شاخص تفاوت عادی شده گیاهی (NDVI) و شاخص تفاوت نرمال شده آب (NDWI) که به عنوان داده های ورودی استفاده شد. در نهایت، تأثیر متغیرهای کمکی فوق بر پیش‌بینی OM خاک بر اساس امتیاز اهمیت روش‌های یادگیری ماشینی کاربردی مورد ارزیابی قرار گرفت.

۲٫ مواد و روشها

۲٫۱٫ منطقه مطالعه و نمونه برداری از خاک

منطقه مورد مطالعه در شمال یونان، در نزدیکی ساحل دریاچه Orestiada، در واحد منطقه ای Kastoria انتخاب شد ( شکل ۱ ). مختصات آن در سیستم ژئودتیک جهانی ۱۹۸۴ (WGS84) شامل ناحیه بین ۴۰°۲۸’۴۲٫۴۱″ شمالی و ۴۰°۳۲’۳۵٫۶۱″ عرض جغرافیایی شمالی و طول جغرافیایی ۲۱°۱۹’۴٫۰۱″ شرقی و ۲۱°۲۳″ E11 است. طول جغرافیایی
در حالی که منطقه مورد نظر مسطح است، میانگین ارتفاع از سطح دریا در حدود ۶۴۰ متر است که از ۶۲۰ متر در نزدیکی دریاچه تا ۷۰۰ متر شمالی تر است. آب و هوا معتدل و اغلب گرم است و زمستان های سختی دارد که اغلب در طول روز دما را زیر صفر نگه می دارد. میانگین سالانه دما ۱۱٫۵ درجه سانتی گراد است که میزان بارش به ۶۳۶ میلی متر می رسد. تابستان ها گرم و خشک و با رطوبت نسبی ۵۰ تا ۵۵ درصد است. درختان سیب و لوبیا محصولات کشاورزی اولیه هستند.
در طی یک دوره شش ساله، در مجموع ۴۱۴ نمونه خاک در مکان‌های مجزای نمونه‌برداری تصادفی در اطراف منطقه مورد مطالعه (۲۰۱۲ تا ۲۰۱۹) جمع‌آوری شد. در مجموع ۳۰ سانتی متر از خاک بالا در اواخر فصل پاییز (حدود اواخر نوامبر) جمع آوری شد. موقعیت های نمونه گیری با استفاده از دستگاه های سیستم موقعیت یاب جهانی (GPS) تعیین شد. حداقل فاصله بین دو محل نمونه برداری بین ۶۰ تا ۴۸۰ متر با میانگین ۹۰ متر متغیر است.

۲٫۲٫ متغیرهای کمکی خاک، محیطی و ماهواره ای

در این مطالعه، متغیرهای خاک، متغیرهای محیطی و تصاویر ماهواره‌ای ( جدول ۱ ) به عنوان ورودی‌های بالقوه در مدل‌ها انتخاب شدند. با توجه به متغیرهای کمکی خاک، ۴۱۴ نمونه خاک که از منطقه جمع آوری شد، از نظر خاک رس (C) با روش هیدرومتر خاک (Bouyoucos) [ ۱۵ ]، منیزیم (Mg) با روش استات آمونیوم و روی (روی) با روش DTPA [ ۱۶ ] تجزیه و تحلیل شدند.]. علاوه بر این، تجزیه و تحلیل ماده آلی (OM) (روش اکسیداسیون مرطوب) از همان مکان‌ها برای کالیبره کردن مدل‌ها و ارزیابی نتایج پیش‌بینی انجام شد. به طور دقیق تر، در طی مراحل نمونه برداری از خاک، از هر قطعه زراعی یک نمونه خاک مرکب شامل چند نمونه فرعی تا عمق ۳۰ سانتی متری تهیه و نمونه های خاک خشک شده و در آزمایشگاه منابع آب و خاک مورد تجزیه و تحلیل قرار گرفت. موسسه در تسالونیکی، یونان.
متغیرهای محیطی از نسخه دوم رادیومتر انتشار حرارتی پیشرفته فضایی- مدل ارتفاع دیجیتال جهانی نسخه ۲ (ASTER GDEM2) مشتق شده‌اند. انتشار ASTER GDEM2 در دسترس بودن منابع DEM رایگان را که به ویژه برای کشورهای در حال توسعه مفید است، غنی کرده است و کاربران را بر آن داشت تا کیفیت و دقت آن را ارزیابی کنند [ ۱۷ ]. ASTER GDEM2 از کاشی های ۱°×۱° (رزولوشن ۳۰ متر) در سیستم ژئودتیک جهانی ۱۹۸۴ (WGS84) تشکیل شده است، که برای این مطالعه به سیستم مرجع ژئودتیک یونان ۱۹۸۷ (GGRS87) بازپخش شد [ ۱۸ ].
علاوه بر این، شاخص‌های ماهواره‌ای از تصاویر Sentinel-2 استخراج شدند. به طور خاص تر، شاخص تفاوت نرمال شده گیاهی (NDVI) و شاخص تفاوت نرمال شده آب (NDWI) از سال ۲۰۱۶ تا ۲۰۱۹ تقریباً در همان دوره زمانی جمع آوری شد که داده های خاک (پایان نوامبر) جمع آوری شد. NDVI شناخته شده و پرکاربرد یک شاخص ساده اما موثر برای تعیین کمیت پوشش گیاهی سبز است. نور قرمز به طور فعال توسط گیاهان سالم جذب می شود، در حالی که مادون قرمز نزدیک منعکس می شود. برای تعیین وضعیت سلامت گیاه، باید مقادیر جذب و بازتاب نور قرمز و مادون قرمز را با هم مقایسه کنیم [ ۷ ، ۱۹ ]]. NDWI یک شاخص گیاهی حساس به محتوای آب پوشش گیاهی است و مکمل NDVI است. مقادیر بالای NDWI نشان دهنده محتوای بالای آب گیاه و پوشش با کسر گیاهی بالا است. محتوای کم پوشش گیاهی و پوشش گیاهی کم با مقادیر کم NDWI مطابقت دارد. نرخ NDWI در زمان تنش آب کاهش می یابد [ ۲۰ ].

۲٫۳٫ آماده سازی و ارزیابی داده ها

ابتدا داده‌های توپوگرافی و شاخص‌های ماهواره‌ای به همراه داده‌های آنالیز خاک با هم ترکیب شدند و به صورت مکانی روی محل‌های نمونه‌برداری قرار گرفتند. مجموعه داده کلی برای مقادیر پرت و از دست رفته ارزیابی شد. از ۴۱۴ نقطه اولیه، ۴۰۳ نقطه در پایان باقی مانده است که به عنوان ورودی برای مدل های مورد مطالعه استفاده شده است.
از مجموعه کامل متغیرها، تنها یک زیرمجموعه در مطالعه مورد استفاده قرار گرفت. متغیرها با استفاده از تکنیک Akaike Information Criteria (stepAIC) و تجزیه و تحلیل مؤلفه اصلی (PCA) حذف شدند و همچنین برای چند خطی بودن ارزیابی شدند. متغیرهای باقیمانده C، OM، ZN، MG، Vdepth، Altitude، NDVI_2016، NDVI_2017، و NDWI_2019 بودند ( جدول ۲ ).
نقشه‌های توزیع فضایی متغیرهای کمکی محیطی که از ASTER GDEM2 مشتق شده‌اند و در مطالعه مورد استفاده قرار گرفته‌اند (عمق و ارتفاع)، در ادامه ارائه شده‌اند ( شکل ۲ ).
نقشه‌های متغیرهای ماهواره‌ای که در مطالعه مورد استفاده قرار گرفتند (NDVI_2016، NDVI_2017 و NDWI_2019) به شرح زیر است ( شکل ۳ ).
در نهایت، متغیرهای کمکی خاک (C، MG، ZN) از مکان‌های نقطه‌ای شناخته شده مجموعه داده کامل با استفاده از OK درون یابی شدند و توزیع مکانی آنها برای کل منطقه مورد مطالعه برآورد شد ( شکل ۴ ).
برای تمامی پارامترهای خاک، مدل نیم متغیره ماترن با پارامترسازی M. Stein (Ste) به عنوان مدل برازش با استفاده از پارامترهای پیش‌فرض gstat اعمال شد. با توجه به C، برد آن ۶۶۰ متر بود و یک وابستگی مکانی قوی با نسبت قطعه به آستانه ۰٫۸٪ نشان داد [ ۲۱ ]. منیزیم دارای برد ۱۹۵۵ متر با وابستگی فضایی قوی (قطعه به آستانه ۳٫۵٪) بود در حالی که روی دارای محدوده ۲۷۹ متر با وابستگی مکانی متوسط ​​با قطعه به آستانه نزدیک به ۶۵٪ بود.
نقشه‌های کریجینگ تولید شده از متغیرهای کمکی خاک برای تخمین OM خاک در منطقه توسط مدل‌های مطالعه حاضر (KED، RF، QRF) استفاده شد ( شکل ۵ ).

۲٫۴٫ کریجینگ معمولی (OK) و کریجینگ با رانش خارجی (KED)

کریجینگ معمولی نوعی کریجینگ است که در آن وزن مقادیر برابر یک جمع می شود. خطی است زیرا برآوردهای آن ترکیبی خطی از داده های موجود است. همچنین بی طرف است زیرا سعی می کند میانگین باقیمانده را صفر نگه دارد و سعی می کند واریانس باقیمانده را به حداقل برساند [ ۲۲ ]. OK به طور ضمنی میانگین را در یک محله متحرک با ایستایی مرتبه دوم محلی ارزیابی می کند و واریانس آن برابر با مجموع واریانس کریجینگ ساده (با فرض میانگین شناخته شده) به اضافه واریانس ناشی از عدم اطمینان در مورد مقدار میانگین واقعی است [ ۲۳ ].
کریجینگ جهانی (بریتانیا)، کریجینگ با رانش خارجی و رگرسیون-کریجینگ (RK) به گروهی از به اصطلاح «هیبرید» [ ۲۴ ]، یعنی روش‌های زمین آماری غیر ثابت [ ۲۳ ] تعلق دارند. در زمین‌آمار کلاسیک، پیش‌بینی فضایی برای فرآیندهای غیر ثابت با در نظر گرفتن یک روند فضایی (همچنین به عنوان “رانش” شناخته می‌شود) انجام می‌شود که یا صرفاً به عنوان تابعی از مختصات (در انگلستان) مدل‌سازی می‌شود یا به صورت “خارجی” از طریق برخی تعریف می‌شود. متغیرهای کمکی (در KED) [ ۲۵ ].
KED وزن‌های کریجینگ را با گسترش ماتریس کوواریانس با متغیرهای کمکی حل می‌کند تا شرایط جهان‌شمولی در سیستم کریجینگ یکپارچه شود. در اینجا، مشکل به دست آوردن واریوگرام باقیمانده رضایت بخش در حضور رانش است [ ۲۶ ].
اجرای هر دو OK و KED در مطالعه حاضر با بسته gstat در R انجام شد.

۲٫۵٫ جنگل‌های تصادفی (RF) و جنگل‌های رگرسیون کمی (QRF)

ایده توسعه روش RF بر اساس ترکیبی از روش کیسه‌ای و زیرفضای تصادفی، استفاده از مزایا و جبران معایب آنها، با نتایج چشمگیر است [ ۳ ، ۲۷ ].
به گفته بریمن (۲۰۰۱) [ ۳ ]، در مورد طبقه بندی، “جنگل تصادفی طبقه بندی کننده ای است که از مجموعه ای از طبقه بندی کننده های ساختار درختی تشکیل شده است {h(x، Θk)، k = 1، …} که در آن {Θk } بردارهای تصادفی مستقلی هستند که به طور یکسان توزیع شده اند و هر درخت یک رای واحد برای محبوب ترین کلاس در ورودی x می دهد. در صورت رگرسیون، بریمن بیان می‌کند که «…جنگل‌های تصادفی برای رگرسیون با رشد درختان بسته به بردار تصادفی Θ تشکیل می‌شوند، به طوری که پیش‌بینی‌کننده درخت h(x، Θ) مقادیر عددی را بر خلاف برچسب‌های کلاس می‌گیرد. مقادیر خروجی عددی هستند و ما فرض می کنیم که مجموعه آموزشی به طور مستقل از توزیع بردار تصادفی Y, X گرفته شده است.
RF برای رگرسیون به طور گسترده در DSM استفاده می شود (به عنوان مثال، [ ۲۸ ، ۲۹ ، ۳۰ ، ۳۱ ، ۳۲ ، ۳۳]) با نتایج بسیار مثبت در پیش بینی پارامترهای مختلف خاک. مهم‌تر از آن، با متغیرهای اریب و معمولی توزیع شده، بدون نیاز به فرضیات آماری یا محدودیت‌هایی که روش‌های دیگر اقتضا می‌کنند، به همان اندازه خوب کار می‌کند. بنابراین، استفاده از آن آسان تر و ساده تر است. فقط نیاز به توجه ویژه در بهینه سازی هایپرپارامترها برای گرفتن بهترین نتایج دارد. یکی از اشکالات عمده برخی از روش‌های شناخته شده ML (RF، ANN و غیره) فقدان قابلیت‌های تخمین عدم قطعیت ذاتی است. بنابراین، به غیر از نقشه‌های پیش‌بینی، برخلاف روش‌های کلاسیک زمین‌آمار، واریانس خطای پیش‌بینی را نمی‌توان تخمین زد. دلیل اصلی این امر این است که اکثر روش‌های ML، از جمله RF، تنها پیش‌بینی‌های مقدار میانگین را ارائه می‌دهند.
یک راه حل ممکن برای این کمبود از Nicolai Meinshausen [ ۹ ] آمد، که RF استاندارد را تعمیم داد تا اطلاعاتی را برای توزیع شرطی کامل متغیر پاسخ و نه تنها در مورد میانگین شرطی ارائه کند. این الگوریتم ML جنگل‌های رگرسیون چندکی (QRF) نامیده می‌شود و روشی غیر پارامتریک و دقیق برای تخمین چندک‌های شرطی برای متغیرهای پیش‌بینی‌کننده با ابعاد بالا ارائه می‌دهد. تفاوت اصلی بین QRF و RF به شرح زیر است: برای هر گره در هر درخت، RF تنها میانگین مشاهداتی را که در این گره قرار می گیرند و از تمام اطلاعات دیگر غفلت می کنند، نگه می دارد. در مقابل، QRF مقادیر تمام مشاهدات را در این گره نگه می دارد، نه فقط میانگین آنها را، و توزیع شرطی را بر اساس این اطلاعات ارزیابی می کند.
در مطالعه حاضر از بسته رنجر به زبان R برای پیاده سازی مدل های ML استفاده شد. Ranger پیاده سازی سریع RF یا پارتیشن بندی بازگشتی است که به ویژه برای داده های با ابعاد بالا مناسب است.
ارزیابی فراپارامترهای بهینه یک مدل ML یک گام مهم برای تخمین بهترین مدل‌های ML برای هر مورد استفاده خاص است. تنظیمات فراپارامتر ایده آل تأثیر مستقیمی بر عملکرد مدل دارد. اگرچه روش‌های بهینه‌سازی خودکار مختلفی وجود دارد، اما نقاط قوت و معایب آن‌ها زمانی که برای انواع موقعیت‌ها اعمال می‌شوند تغییر می‌کنند [ ۳۴ ]]. در مطالعه حاضر، روش جستجوی تصادفی (یک ۱۰ کیلو برابری با ۳ تکرار) انجام شد که در آن از ترکیبات تصادفی پارامترها از طیفی از مقادیر استفاده شد و به عنوان فراپارامتر مورد استفاده قرار گرفت. مدل ML با مجموعه ای از پارامترها که بالاترین دقت را داشت بهترین در نظر گرفته شد و برای پیش بینی استفاده شد. مجموعه داده کلی (۴۰۳ نمونه) به دو مجموعه داده مجزا تقسیم شد: مجموعه داده آموزشی (۷۰ درصد داده ها) که برای تخمین فراپارامترهای مدل استفاده شد و مجموعه داده آزمایشی (۳۰ درصد از داده ها) که برای ارزیابی داده های مختلف استفاده شد. مدل ها. هایپرپارامترهای خاص برای RF که بهینه شده بودند در جدول ۳ ارائه شده است.

۲٫۶٫ عدم قطعیت

محصولات DSM تخمینی از خواص خاک توزیع شده در فضایی را نشان می دهد. این برآوردها شامل یک عنصر عدم قطعیت است که به طور مساوی در منطقه تحت پوشش DSM توزیع نشده است [ ۸ ]. این نقص ها با ترکیب داده های خاک در سایت ها با عوامل محیطی جامع فضایی با استفاده از مدل های کمی برطرف می شوند (به عنوان مثال، [ ۳۵ ، ۳۶ ، ۳۷ ]). مدل ها همچنین می توانند به دلایل متعدد به روز شوند و عدم قطعیت را می توان اندازه گیری کرد [ ۳۸ ، ۳۹ ].
اندازه‌گیری‌ها، دیجیتالی‌سازی، ورودی داده‌ها، تفسیر، طبقه‌بندی، تعمیم و درون‌یابی همگی منابع رایج اشتباه هستند [ ۴۰ ]. تعصب مدل‌سازی، پارامترسازی یا حتی اشتباهات اندازه‌گیری مرتبط با داده‌های ورودی، همگی می‌توانند باعث عدم قطعیت در نقشه‌های خاک دیجیتال شوند [ ۴۱ ]. نلسون و همکاران [ ۴۲ ] توصیه می‌کند که یک بودجه خطا برای ارزیابی سهم هر خطا با استفاده از ترکیبی از شبیه‌سازی‌های زمین‌آماری و مونت کارلو برای به دست آوردن درک بهتری از عدم قطعیت انجام شود. تمایز بین خطای مدل و عدم قطعیت صریح فضایی نیز باید در نظر گرفته شود [ ۴۳]. میانگین مجذور اختلاف بین مقدار برآورد شده و مقدار واقعی به عنوان خطای مدل شناخته می شود که اغلب به عنوان میانگین مربع خطا (MSE) ارزیابی می شود [ ۴۴ ، ۴۵ ]. با این حال، عدم قطعیت صریح فضایی، که اغلب به عنوان “خطای محلی” شناخته می شود، به کمی سازی فواصل پیش بینی خروجی مدل اشاره دارد (به عنوان مثال، [ ۱۱ ، ۴۴ ، ۴۶ ]).
این پیش‌بینی با معیار صریح عدم قطعیت مرتبط است. در بسیاری از شرایط، مانند فرآیند تصمیم‌گیری، تعیین کمیت عدم قطعیت پیش‌بینی به همان اندازه مهم است که خود پیش‌بینی را انجام دهیم، بنابراین نقشه‌های عدم قطعیت ضروری هستند (به عنوان مثال، [ ۴۷ ، ۴۸ ]). در DSM، تجزیه و تحلیل عدم قطعیت برای تصمیم گیری در مورد اینکه آیا نقشه خاک پیش بینی شده به اندازه کافی قابل اعتماد است که در سیستم های تولید کشاورزی یا تصمیم گیری اعمال شود، بسیار مهم است. تجزیه و تحلیل عدم قطعیت همچنین شامل تصدیق محدودیت های مدل است که گامی به سوی تفسیرپذیری مدل است [ ۱ ]. همانطور که Heuvelink [ ۴۹] بیان می کند، ما علاقه زیادی به فواصل پیش بینی در نقشه برداری خاک داریم، یعنی محدوده ای که احتمالاً حاوی مقداری است که هنوز اندازه گیری نشده است. با این حال، تعداد بسیار کمی از مطالعات DSM عدم قطعیت را تخمین می زنند. با توجه به Wadoux [ ۱ ]، تنها حدود ۳۰٪ از مطالعات ارائه شده در مقاله خود، عدم قطعیت پیش بینی را کمی کردند.
در مطالعه حاضر عدم قطعیت تنها برای سه روش از چهار روش OK، KED، QRF برآورد شد. RF به خودی خود قابلیت های تخمین عدم قطعیت را ارائه نمی دهد. روش های زمین آماری OK و KED به طور پیش فرض واریانس مورد استفاده برای ارزیابی عدم قطعیت را ارائه می دهند. عمدتاً انحراف معیار محاسبه و محدوده آن در نقشه ها نشان داده شد. برای QRF محدوده به عنوان یک انحراف استاندارد بالاتر و پایین تر از مقدار میانه تعریف شد. این محدوده برای ایجاد نقشه عدم قطعیت منطقه مورد مطالعه استفاده شد

۲٫۷٫ ارزیابی خطا

معیارهای مختلف ( جدول ۴ ) برای تخمین عملکرد مدل بر اساس تفاوت بین مشاهدات و پیش‌بینی‌ها در مجموعه داده‌های آزمایشی مورد استفاده قرار گرفت.
ریشه میانگین مربعات خطا (RMSE) و میانگین خطای مطلق (MAE) بر اساس مقدار اندازه گیری شده برآورد شد. و پیش بینی آن که در مکان نمونه ها (معادلات (۱) و (۲)). MAE میانگین مقادیر مطلق تفاوت بین پیش بینی و مشاهده مربوطه در نمونه تأیید است. از آنجایی که MAE یک امتیاز خطی است، همه تفاوت های فردی به طور مساوی در میانگین وزن می شوند. RMSE یک قانون امتیازدهی درجه دوم است که میانگین بزرگی خطا را محاسبه می کند. از آنجایی که خطاها قبل از میانگین گیری مجذور می شوند، RMSE به خطاهای بزرگ وزن نسبتاً بالایی می دهد. در نتیجه، RMSE زمانی بسیار مفید است که خطاهای بزرگ به ویژه نامطلوب باشند. MAE و RMSE هر دو دارای محدوده ای از ۰ تا ∞ هستند. آنها نمرات منفی هستند، بنابراین هرچه این تعداد کمتر باشد، بهتر است. ضریب تعیین (R ۲ ) (معادله (۳)) نشان دهنده توانایی یک مدل برای پیش بینی یا توضیح یک نتیجه است. R ۲درصد واریانس متغیر پیش بینی شده و متغیر اندازه گیری شده را نشان می دهد که در آن SSE مجموع مربعات خطاها و SSTO مجموع مجموع مربعات است. ضریب تعیین از ۰ تا ۱ متغیر است که در ۰ (صفر) هیچ تغییری توسط مدل توضیح داده نمی شود و در ۱ (یک) همه تغییرات توسط مدل توضیح داده می شود. مقدار R2 بالا ، به طور کلی، نشان می‌دهد که مدل مناسب برای داده‌ها است، اگرچه تفاسیر برازش بسته به زمینه تحلیل متفاوت است. در نهایت، میانگین خطای سوگیری (MBE) به عنوان اندازه گیری برآورد سوگیری مدل ها استفاده شد (معادله (۴)).

۲٫۸٫ نرم افزار

برای تجزیه و تحلیل آماری مطالعه حاضر، از نرم افزار آماری R (نسخه ۴٫۰٫۳) و بسته کارت [ ۵۰ ] استفاده شد. همچنین، بسته رنجر [ ۵۱ ] برای RF و QRF استفاده شد. زمین آمار با بسته gstat [ ۵۲ ] اجرا شد. در نهایت از نرم افزار Saga-GIS ( https://saga-gis.sourceforge.io/en/index.html (دسترسی در ۱۸ نوامبر ۲۰۲۱)) برای شاخص های زیست محیطی استفاده شد.

۳٫ نتایج

۳٫۱٫ Semivariograms و Fitting Parameters OK و KED

در ابتدا، OK و KED با استفاده از مجموعه داده آموزشی برای پیش‌بینی OM خاک در منطقه مورد مطالعه پیاده‌سازی شدند. در مورد OK، بر اساس نیم‌واریوگرام تجربی، مدل نیم‌واریوگرام مادر با پارامترسازی M. Stein (Ste) با استفاده از برازش حداقل مربعات وزنی بسته gstat برازش شد ( شکل ۶ ). برد ۲۰۷ متر با یک قطعه در ۰٫۳۵ و آستانه در ۰٫۴۹ بود. یک وابستگی فضایی متوسط ​​بر اساس نسبت قطعه به آستانه (۷۱٪) وجود داشت.
در مورد KED، مدل کروی برای برازش با روش پیش‌فرض gstat بر اساس برازش حداقل مربعات وزنی استفاده شد. برد در ۴۱۴ متر، دو برابر از برد OK بود. در این مورد یک وابستگی فضایی ضعیف با نسبت قطعه به آستانه کل ۸۳٪ وجود داشت.

۳٫۲٫ نتایج بهینه سازی فراپارامترهای RF و QRF

همانطور که قبلاً بیان شد ( بخش ۲٫۵ )، مدل‌های ML به ارزیابی فراپارامترهای بهینه خود نیاز دارند تا بهترین نتایج پیش‌بینی را ارائه کنند. در مورد RF و QRF همانطور که توسط کتابخانه رنجر تعریف شده است، چهار فراپارامتر باید تخمین زده شود ( جدول ۳ ). یک فرآیند تکراری (آزمایش و خطا) با روش بهینه‌سازی جستجوی تصادفی مورد استفاده قرار گرفت، که در آن مقادیر تصادفی مختلف این پارامترها از طیف وسیعی از مقادیر معرفی شدند. R2 مدل‌های ML با استفاده از روش اعتبارسنجی متقاطع ۱۰ برابری که ۳ بار در مجموعه داده‌های آموزشی تکرار شد، ارزیابی شد ( شکل ۷ ). ابرپارامترهایی که بالاترین R ۲ را برگرداندند در نهایت انتخاب شدند ( جدول ۵).
برای ابرپارامتر splitrule، تنها از روش‌های “واریانس” و “extratrees” به دلیل خطاهای غیرقابل جبران از مقادیر “maxstat” و “beta” استفاده شد.
فراپارامترهای بهینه خاص در مدل‌های RF و QRF معرفی شدند و برای تخمین قابلیت‌های پیش‌بینی آن‌ها بر روی مجموعه داده آزمایشی استفاده شدند.

۳٫۳٫ اهمیت ویژگی های مدل های ML

اهمیت ویژگی RF و QRF با تکنیک جایگشت [ ۳ ] تخمین زده شد ( شکل ۸ ) که به عنوان کاهش امتیاز مدل زمانی که یک مقدار مشخصه به طور تصادفی مخلوط می‌شود، تعریف می‌شود. یک ویژگی اگر به هم زدن مقادیر آن خطای مدل را افزایش دهد (اثر قوی بر پیش‌بینی) «مهم» است و اگر به هم زدن مقادیر آن خطای مدل را بدون تغییر باقی بگذارد (تاثیر کم یا بدون تأثیر بر پیش‌بینی) «بی‌اهمیت» است.
با توجه به نمرات اهمیت، RF و QRF هر دو تصدیق می کنند که متغیرهای کمکی خاک بالاترین اهمیت را نشان می دهند، چیزی که به دلیل یافته های قابل مقایسه مطالعه قبلی [ ۲۸ ] در یک منطقه مجاور انتظار می رفت. در مطالعه حاضر به طور خاص، روی با C دوم و منیزیم سوم بالاترین امتیاز را داشت. ارتفاع از شاخص های توپوگرافی به همراه NDVI 2016 و Vdepth در رتبه بعدی قرار گرفت. آخرین موقعیت ها توسط NDVI سال ۲۰۱۷ و NDWI در سال ۲۰۱۹ اشغال شد.

۳٫۴٫ نتایج پیش بینی

مجموعه داده به دو مجموعه تصادفی اما متوازن فضایی ۷۰ درصد برای آموزش مدل ها و ۳۰ درصد برای آزمایش تقسیم شد. تفاوت بین مشاهدات OM خاک و پیش‌بینی‌های آنها در مجموعه داده‌های آزمایش برای ارزیابی دقت پیش‌بینی مدل‌های مختلف استفاده شد و آنها در جدول ۶ و شکل ۹ ارائه شده‌اند .
همانطور که در نتایج نشان داده شده است ( جدول ۶ )، OK کم دقت ترین مدل با R ۲ بسیار کم (۰٫۱۲۷) و RMSE و MAE بالا بود، چیزی که به دلیل عدم ظرفیت آن برای ترکیب اطلاعات کمکی انتظار می رفت. قابلیت پیش‌بینی OK فقط بر اساس خودهمبستگی فضایی متغیر (OM) است، از این رو نتایج فعلی ضعیف است. گرچه بر اساس MBE (0.002-) تعصب کوچکتر را ارائه کرد.
KED قابلیت های پیش بینی روند را که بر اساس متغیرهای کمکی است، همراه با درون یابی کریجینگ ترکیب می کند. بنابراین، نتایج مناسب هستند، با RMSE پایین (۰٫۶۱۸) و MAE (0.455) که بسیار نزدیک به RF و حتی کمی بهتر از QRF هستند. با این حال، ضریب تعیین (۰٫۴۵۲) بسیار بدتر از روش های ML است. بایاس نیز نزدیک به صفر (۰٫۰۲۲-) کوچک بود، اما بالاتر از OK بود.
مدل‌های ML قابلیت پیش‌بینی بالاتری نسبت به مدل‌های زمین‌آماری نشان دادند. به طور خاص، بهترین نتایج توسط RF به دست آمد. به خصوص R ۲ آن بالاترین (۰٫۵۳۸) در بین مدل ها با بهبود حدود ۲۰٪ از KED بود. با توجه به RMSE و MAE، نتایج RF با کمترین مقادیر کلی بهترین بود. سوگیری مدل کم (۰٫۰۲۰-) نزدیک به مقدار KED بود.
مدل QRF همچنین قابلیت‌های پیش‌بینی بسیار خوبی را با R2 بالا ( ۰٫۵۳۲ ) بسیار نزدیک به RF و RMSE و MAE بسیار پایین، نزدیک به RF و KED نشان داد. MBE بالاتر از مدل های دیگر بود (-۰٫۰۴۶)، اما همچنان پایین و نزدیک به صفر بود. بنابراین، RF و QRF هر دو می توانند به جای یکدیگر برای پیش بینی OM خاک با نتایج مشابه در مطالعه حاضر استفاده شوند.

۳٫۵٫ نقشه های پیش بینی و عدم قطعیت

در ادامه، دو مجموعه نقشه از مدل‌های مختلف مطالعه حاضر تولید شد. مجموعه اول شامل چهار نقشه پیش‌بینی است که توزیع فضایی OM خاک در منطقه را ارائه می‌کند، یکی برای هر روش: OK، KED، RF و QRF ( شکل ۱۰ ). مجموعه دوم نقشه ها شامل سه نقشه با روش های OK، KED و QRF است که توزیع فضایی عدم قطعیت پیش بینی را در منطقه به تصویر می کشد ( شکل ۱۱ ). در این مورد از RF به دلیل عدم وجود قابلیت عدم قطعیت استفاده نشد.
نقشه پیش‌بینی OK نتایج درون‌یابی را با الگوهای پیش‌بینی نسبتاً یکنواخت در سراسر منطقه مورد مطالعه نشان داد. دلیل اصلی این امر این است که OK تنها بر اساس همبستگی خودکار فضایی OM با استفاده از پارامترهای مدل جهانی است که نتایج را هموار می کند. مدل KED نقشه ای را تولید می کند که به دلیل تأثیر متغیرهای کمکی آن به طور ناگهانی تغییر می کند و منجر به ایجاد مناطق متعدد با مقادیر محلی بالاتر و پایین تر از OK می شود. با توجه به روش‌های ML (RF، QRF)، نقشه‌های آن‌ها حتی کنتراست بیشتری نسبت به OK و KED داشتند، به دلیل توانایی آن‌ها در تولید الگوهایی که با تطبیق بهتر با مجموعه داده‌ها تا حد امکان مطابقت دارند. در میان آنها، به نظر می رسد QRF الگوهای کمی ناگهانی تر از RF با مناطق با مقادیر کمی پایین تر و بالاتر ارائه می کند.
همانطور که قبلاً ذکر شد، جدای از نتایج پیش‌بینی، عدم قطعیت پیش‌بینی پارامتری حیاتی است که باید در مکان‌های مختلف منطقه مورد مطالعه برآورد شود. در مطالعه حاضر نقشه های عدم قطعیت تنها برای ۳ روش از ۴ روش محاسبه شد. RF از برآورد عدم قطعیت پشتیبانی نمی کند. OK و KED ذاتاً واریانس خطا را ارائه می دهند که توسط آن انحراف استاندارد محاسبه شده و محدوده آن در نقشه ها ارائه شده است. برای QRF محدوده به عنوان یک انحراف استاندارد بالا و پایین میانه تعریف شد و برای ایجاد نقشه عدم قطعیت منطقه مورد مطالعه استفاده شد ( شکل ۱۱ ).
بر اساس نقشه های عدم قطعیت، بدیهی است که OK دارای یک محدوده عدم قطعیت صاف و به طور مساوی در منطقه با مقدار میانگین تقریباً ۰٫۸٪ است. بنابراین، در هر مکان، مقدار OM واقعی تقریباً ۰٫۴% بالاتر یا کمتر از مقدار پیش‌بینی‌شده است.
نقشه عدم قطعیت KED دارای محدوده عدم قطعیت کلی کمتری نسبت به OK (حدود ۰٫۶٪) است، که تقریباً به طور مساوی در منطقه مورد مطالعه کلی توزیع شده است، مشابه با OK. برخی مقادیر دامنه کمی افزایش یافته در ناحیه شمال غربی به همراه برخی تکه های کوچک در بین (مناطق آبی روشن تر) به دلیل تأثیر جزئی متغیرهای کمکی بر نتایج عدم قطعیت وجود دارد.
در مورد QRF، نقشه عدم قطعیت متنوع‌تر از نقشه‌های قبلی است. مناطق متمایز با عدم قطعیت بسیار کم مانند آن در شمال یا در مرکز منطقه (با رنگ آبی تیره) و مناطق با عدم قطعیت بالاتر مانند مناطق جنوب یا نزدیک به دریاچه (با رنگ زرد) وجود دارد. این تصویر واضح از عدم قطعیت در مقیاس محلی و تعریف ساده مناطق عدم قطعیت ممکن، یک مزیت عمده نسبت به روش‌های زمین‌آماری به‌ویژه برای اهداف پشتیبانی تصمیم است.

۴٫ بحث

یکی از وظایف اصلی در مطالعات DSM، برآورد و ارائه توزیع مکانی متغیرهای مختلف خاک در منطقه مورد مطالعه با استفاده از روش‌های مختلف درون‌یابی است. جدای از آن، برآورد و ارائه عدم قطعیت این روش‌های درون‌یابی به همان اندازه برای ارزیابی کار کلی مهم است، چیزی که در برخی از مطالعات اخیر DSM، به‌ویژه مطالعات مبتنی بر ML وجود ندارد.
روش‌های ML به طور فزاینده‌ای در DSM استفاده می‌شوند، بر اساس قابلیت‌های پیش‌بینی برجسته‌شان که از روش‌های زمین آماری کلاسیک، بدون اشکالات مفروضات آماری و محدودیت‌های روش‌های دیگر، بهتر عمل می‌کنند. با این حال، اکثر آنها قابلیت تخمین عدم قطعیت ذاتی را ندارند. RF یک روش ML بسیار امیدوارکننده است که در مطالعات متعدد DSM استفاده می‌شود که با این وجود فاقد ظرفیت تخمین عدم قطعیت داخلی است. یک جایگزین جالب QRF است که به نظر می‌رسد قابلیت‌های پیش‌بینی پیشرفته مشابه RF را همراه با معیارهای تخمین عدم قطعیت ذاتی ارائه می‌دهد.
در مقاله حاضر، تایید شد که QRF نتایج برجسته ای را در پیش بینی OM خاک در منطقه مورد مطالعه، بسیار نزدیک به روش RF نشان می دهد. مخصوصا R2بسیار بالاتر از روش های زمین آماری بود، چیزی که نشان می دهد تنوع بیشتر توسط مدل خاص توضیح داده می شود. علاوه بر این، قابلیت‌های عدم قطعیت آن همانطور که در نقشه‌های عدم قطعیت ارائه شده است، نشان می‌دهد که می‌تواند تخمین بسیار کارآمدی از عدم قطعیت در منطقه مورد مطالعه ارائه دهد. نقشه عدم قطعیت با QRF کنتراست قوی‌تری را در مقایسه با نقشه‌های عدم قطعیت OK و KED با نمایش متمایز از تغییرات محلی عدم قطعیت مانند مناطق کوچک با عدم قطعیت بالاتر یا پایین‌تر نشان می‌دهد. بر اساس این نقشه، برای کاربر بسیار آسان است که خوشه هایی از مناطق عدم قطعیت را تعریف کرده و اثر آن را به صورت محلی طبقه بندی کند. این یک مزیت واقعی قابل توجه است.

منابع

  1. Wadoux، AMJC; میناسنی، بی. مک براتنی، AB یادگیری ماشینی برای نقشه برداری دیجیتال خاک: کاربردها، چالش ها و راه حل های پیشنهادی Earth-Sci. Rev. ۲۰۲۰ , ۲۱۰ , ۱۰۳۳۵۹٫ [ Google Scholar ] [ CrossRef ]
  2. Lagacherie, P. نقشه برداری دیجیتال خاک: وضعیتی از هنر . نقشه برداری دیجیتال خاک با داده های محدود. Springer: برلین، آلمان، ۲۰۰۸; صص ۳-۱۴٫ [ Google Scholar ] [ CrossRef ]
  3. بریمن، ال. جنگل های تصادفی. ماخ فرا گرفتن. ۲۰۰۱ ، ۴۵ ، ۵-۳۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. آموزش پرسپترون کام، TH جنگل های تصمیم تصادفی تین کام هو. Proc. بین المللی ۳ Conf. Doc. مقعدی تشخیص دهد. ۱۹۹۵ ، ۱ ، ۲۷۸-۲۸۲٫ [ Google Scholar ]
  5. ویزمایر، ام. بارتولد، اف. خالی، بی. Kögel-Knabner, I. نقشه برداری دیجیتالی ذخایر مواد آلی خاک با استفاده از مدل سازی تصادفی جنگل در یک اکوسیستم استپی نیمه خشک. خاک گیاهی ۲۰۱۱ ، ۳۴۰ ، ۷-۲۴٫ [ Google Scholar ] [ CrossRef ]
  6. لیو، جی. دونگ، ز. شیا، جی. وانگ، اچ. منگ، تی. ژانگ، آر. هان، جی. وانگ، ن. Xie, J. برآورد محتوای مواد آلی خاک بر اساس الگوریتم CARS همراه با جنگل تصادفی. اسپکتروشیم. Acta-Part A Mol. Biomol. Spectrosc. ۲۰۲۱ ، ۲۵۸ ، ۱۱۹۸۲۳٫ [ Google Scholar ] [ CrossRef ]
  7. جان، ک. ایسونگ، IA; Kebonye، NM; آیتو، EO; Agyeman، PC; Afu، SM با استفاده از الگوریتم‌های یادگیری ماشین برای تخمین تنوع کربن آلی خاک با متغیرهای محیطی و شاخص‌های مواد مغذی خاک در یک خاک آبرفتی. Land ۲۰۲۰ , ۹ , ۴۸۷٫ [ Google Scholar ] [ CrossRef ]
  8. استامف، اف. اشمیت، ک. گوبس، پی. بهرنز، تی. شونبرودت-استیت، اس. وادوکس، ا. شیانگ، دبلیو. شولتن، تی. نمونه برداری با هدایت عدم قطعیت برای بهبود نقشه های خاک دیجیتال. Catena ۲۰۱۷ ، ۱۵۳ ، ۳۰-۳۸٫ [ Google Scholar ] [ CrossRef ]
  9. ماینشاوزن، ن. ریج وی، جی. جنگل های رگرسیون کوانتیل. جی. ماخ. فرا گرفتن. Res. ۲۰۰۶ ، ۷ ، ۹۸۳-۹۹۹٫ [ Google Scholar ]
  10. فریمن، EA؛ Moisen، GG کاربرد جنگل‌های تصادفی چندگانه برای نقشه‌برداری پیش‌بینی‌کننده ویژگی‌های جنگل. برای. اختراع کردن. مقعدی علائم ۲۰۱۵ ، ۹۳۱ ، ۳۶۲٫ [ Google Scholar ]
  11. وایسه، ک. Lagacherie, P. استفاده از جنگل رگرسیون چندک برای تخمین عدم قطعیت محصولات رقومی نقشه برداری خاک. Geoderma ۲۰۱۷ ، ۲۹۱ ، ۵۵-۶۴٫ [ Google Scholar ] [ CrossRef ]
  12. دارومراجان، س. واسونهارا، ر. سوپوترا، ا. لالیتا، م. Hegde, R. پیش‌بینی عمق خاک در کارناتاکا با استفاده از رویکرد نقشه‌برداری دیجیتالی خاک. J. شرکت هندی Remote Sens. ۲۰۲۰ , ۴۸ , ۱۵۹۳–۱۶۰۰٫ [ Google Scholar ] [ CrossRef ]
  13. پوجیو، ال. دی سوزا، ال.ام. Batjes، NH; Heuvelink، GBM؛ کمپن، بی. ریبیرو، ای. Rossiter, D. SoilGrids 2.0: تولید اطلاعات خاک برای کره زمین با عدم قطعیت فضایی کمی. خاک ۲۰۲۱ ، ۷ ، ۲۱۷-۲۴۰٫ [ Google Scholar ] [ CrossRef ]
  14. ورونزی، اف. Schillaci، C. مقایسه بین مدل‌های زمین‌آماری و یادگیری ماشینی به عنوان پیش‌بینی‌کننده کربن آلی خاک سطحی با تمرکز بر تخمین عدم قطعیت محلی. Ecol. اندیک. ۲۰۱۹ ، ۱۰۱ ، ۱۰۳۲-۱۰۴۴٫ [ Google Scholar ] [ CrossRef ]
  15. Bouyoucos, GJ دستورالعمل برای ساخت آنالیزهای مکانیکی خاک با روش هیدرومتر. علم خاک ۱۹۳۶ ، ۴۲ ، ۲۲۵-۲۳۰٫ [ Google Scholar ] [ CrossRef ]
  16. لیندسی، WL; Norvell، WA توسعه آزمایش خاک DTPA برای روی، آهن، منگنز و مس. علم خاک Soc. صبح. J. ۱۹۷۸ , ۴۲ , ۴۲۱-۴۲۸٫ [ Google Scholar ] [ CrossRef ]
  17. سوواندانا، ای. کاوامورا، ک. ساکونو، ی. کوستیانتو، ای. Raharjo, B. ارزیابی aster GDEM2 در مقایسه با GDEM1، SRTM DEM و DEM مشتق شده از نقشه توپوگرافی با استفاده از تجزیه و تحلیل منطقه غرقاب و داده های RTK-DGPS. Remote Sens. ۲۰۱۲ , ۴ , ۲۴۱۹–۲۴۳۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  18. دل روزاریو گونزالس موراداس، م. Viveen، W. ارزیابی ASTER GDEM2، SRTMv3.0، ALOS AW3D30 و TanDEM-X DEMs برای آندهای پرو در برابر نقاط کنترل زمینی GNSS بسیار دقیق و معیارهای ژئومورفولوژیکی-هیدرولوژیکی. سنسور از راه دور محیط. ۲۰۲۰ , ۲۳۷ , ۱۱۱۵۰۹٫ [ Google Scholar ] [ CrossRef ]
  19. روی، DP; لی، ز. Zhang، HK تنظیم بازتاب باند لبه قرمز نگهبان-۲ (MSI) به بازتاب تنظیم شده BRDF (NBAR) و تعیین کمیت اثرات BRDF باند لبه قرمز. Remote Sens. ۲۰۱۷ , ۹ , ۱۳۲۵٫ [ Google Scholar ] [ CrossRef ][ Green Version ]
  20. مجموعه‌های شاخص گیاهی Hill، MJ به عنوان شاخص‌های وضعیت پوشش گیاهی در علفزار و ساوانا: تجزیه و تحلیل با داده‌های SENTINEL 2 شبیه‌سازی شده برای یک ترانسکت آمریکای شمالی. سنسور از راه دور محیط. ۲۰۱۳ ، ۱۳۷ ، ۹۴-۱۱۱٫ [ Google Scholar ] [ CrossRef ]
  21. کامباردلا، کالیفرنیا؛ مورمن، سل؛ نواک، جی.ام. پارکین، سل؛ کارلن، دی.ال. تورکو، RF؛ Konopka، تغییرپذیری در مقیاس میدانی ویژگی‌های خاک در خاک‌های مرکزی آیووا. علم خاک Soc. صبح. J. ۱۹۹۴ , ۵۸ , ۱۵۰۱-۱۵۱۱٫ [ Google Scholar ] [ CrossRef ]
  22. پنگ، ایکس. وانگ، ک. Li, Q. یک روش جدید نقشه برداری توان مبتنی بر کریجینگ معمولی و تعیین استراتژی مکان آشکارساز بهینه. ان هسته انرژی ۲۰۱۴ ، ۶۸ ، ۱۱۸-۱۲۳٫ [ Google Scholar ] [ CrossRef ]
  23. Wackernagel, H. Geostatistics چند متغیره ; Springer: برلین، آلمان، ۱۹۹۸; ISBN 9783662035528. [ Google Scholar ]
  24. مک براتنی، AB; عوده، IOA; اسقف، TFA; دانبار، ام اس; Shatar, TM مروری بر تکنیک های پدومتریک برای استفاده در بررسی خاک. ژئودرما ۲۰۰۰ ، ۹۷ ، ۲۹۳-۳۲۷٫ [ Google Scholar ] [ CrossRef ]
  25. ایگناکولو، آر. ماتو، جی. Giraldo, R. Kriging با رانش خارجی برای داده های عملکردی برای نظارت بر کیفیت هوا. استوک. محیط زیست Res. ارزیابی ریسک ۲۰۱۴ ، ۲۸ ، ۱۱۷۱-۱۱۸۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. وبستر، آر. الیور، کارشناسی ارشد زمین آمار برای دانشمندان محیط زیست . وایلی: چیچستر، انگلستان، ۲۰۰۱; ISBN 0471965537. [ Google Scholar ]
  27. دیتریکل، آموزش گروه TG. در کتاب راهنمای نظریه مغز و شبکه های عصبی ; اربیب، م.، ویرایش. مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، ۲۰۰۲; ص ۴۰۵-۴۰۸٫ [ Google Scholar ]
  28. تزیاکریس، پی. آستونیت، V. Chatzistathis، T. Papadopoulou, M. ارزیابی روش‌های ترکیبی فضایی برای پیش‌بینی مواد آلی خاک با استفاده از مشتقات DEM و پارامترهای خاک. Catena ۲۰۱۹ ، ۱۷۴ ، ۲۰۶–۲۱۶٫ [ Google Scholar ] [ CrossRef ]
  29. دارومراجان، س. هگده، ر. سینگ، SK پیش‌بینی فضایی ویژگی‌های اصلی خاک با استفاده از تکنیک‌های جنگل تصادفی – مطالعه موردی در مناطق استوایی نیمه‌خشک جنوب هند. ژئودرما Reg. ۲۰۱۷ ، ۱۰ ، ۱۵۴-۱۶۲٫ [ Google Scholar ] [ CrossRef ]
  30. وانگ، دی. زو، AX نقشه برداری خاک بر اساس ادغام رویکرد مبتنی بر شباهت و جنگل های تصادفی. Land ۲۰۲۰ , ۹ , ۱۷۴٫ [ Google Scholar ] [ CrossRef ]
  31. استام، AK; بوتینگر، جی ال. White, MA; رمزی، جنگل‌های تصادفی RD به عنوان یک مدل پیش‌بینی فضایی خاک در آرید یوتا استفاده شد. رقم. نقشه خاک ۲۰۱۰ ، ۱۷۹-۱۹۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  32. فرناندز، دی. ماچادو، تی. سیلوا، HG; کوری، ن. Duarte De Menezes، M. پیش بینی فضایی نوع خاک از جنگل تصادفی: مجموعه داده های آموزشی مختلف. علمی کشاورزی ۲۰۱۹ ، ۷۶ ، ۲۴۳-۲۵۴٫ [ Google Scholar ]
  33. شوکلا، جی. Garg، RD; سریواستاوا، اچ اس. Garg، PK پیاده سازی و ارزیابی موثر طبقه بندی کننده جنگل تصادفی به عنوان یک مدل پیش بینی فضایی خاک. بین المللی J. Remote Sens. ۲۰۱۸ , ۳۹ , ۲۶۳۷–۲۶۶۹٫ [ Google Scholar ] [ CrossRef ]
  34. یانگ، ال. Shami، A. در بهینه سازی فراپارامتر الگوریتم های یادگیری ماشین: تئوری و عمل. محاسبات عصبی ۲۰۲۰ ، ۴۱۵ ، ۲۹۵-۳۱۶ . [ Google Scholar ] [ CrossRef ]
  35. مک براتنی، AB; مندونسا سانتوس، ام ال. Minasny, B. در مورد نقشه برداری خاک دیجیتال. ژئودرما ۲۰۰۳ ، ۱۱۷ ، ۳-۵۲٫ [ Google Scholar ] [ CrossRef ]
  36. مک میلان، RA تجربیات با DSM کاربردی: پروتکل، در دسترس بودن، کیفیت و ظرفیت سازی BT- نقشه برداری خاک دیجیتال با داده های محدود. در نقشه برداری خاک دیجیتال با داده های محدود . Hartemink، AE، McBratney، A.، Mendonça-Santos، M.، Eds. Springer: Dordrecht، هلند، ۲۰۰۸; صص ۱۱۳-۱۳۵٫ شابک ۹۷۸-۱-۴۰۲۰-۸۵۹۲-۵٫ [ Google Scholar ]
  37. اسکال، پی. فرانکلین، جی. چادویک، OA; مک آرتور، دی. نقشه برداری خاک پیش بینی: یک بررسی. Prog. فیزیک Geogr. ۲۰۰۳ ، ۲۷ ، ۱۷۱-۱۹۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  38. Heuvelink، GBM شناسایی خطای صفت میدان تحت مدل‌های مختلف تغییرات فضایی. بین المللی جی. جئوگر. Inf. سیستم ۱۹۹۶ ، ۱۰ ، ۹۲۱-۹۳۵٫ [ Google Scholar ] [ CrossRef ]
  39. کمپن، بی. بروس، دی جی; استورووگل، جی جی. Heuvelink، GBM؛ de Vries, F. مقایسه کارایی نقشه برداری خاک معمولی و دیجیتال برای به روز رسانی نقشه های خاک. علم خاک Soc. صبح. J. ۲۰۱۲ ، ۷۶ ، ۲۰۹۷-۲۱۱۵٫ [ Google Scholar ] [ CrossRef ]
  40. Arrouays، D.; مک کنزی، ن. همپل، جی. د فورجس، آر. مک براتنی ، AB GlobalSoilMap: اساس سیستم اطلاعاتی فضایی جهانی خاک . CRC Press: Boca Raton، FL، USA، ۲۰۱۴٫ [ Google Scholar ]
  41. میناسنی، بی. مک براتنی، AB تجزیه و تحلیل عدم قطعیت برای توابع انتقال pedotransfer. یورو J. Soil Sci. ۲۰۰۲ ، ۵۳ ، ۴۱۷-۴۲۹٫ [ Google Scholar ] [ CrossRef ]
  42. نلسون، MA; اسقف، TFA; تریانتافلیس، جی. Odeh, IOA بودجه خطا برای منابع مختلف خطا در نقشه برداری دیجیتالی خاک. یورو J. Soil Sci. ۲۰۱۱ ، ۶۲ ، ۴۱۷-۴۳۰٫ [ Google Scholar ] [ CrossRef ]
  43. کسرایی، ب. هیونگ، بی. Saurette، DD; اشمیت، ام جی; Bulmer، CE; Bethel، W. رگرسیون کوانتیل به عنوان یک رویکرد عمومی برای تخمین عدم قطعیت نقشه های خاک دیجیتال تولید شده از یادگیری ماشینی. محیط زیست مدل. نرم افزار ۲۰۲۱ , ۱۴۴ , ۱۰۵۱۳۹٫ [ Google Scholar ] [ CrossRef ]
  44. مالون، BP; مک براتنی، AB; میناسنی، ب. برآوردهای تجربی عدم قطعیت برای نقشه برداری توابع عمق پیوسته ویژگی های خاک. ژئودرما ۲۰۱۱ ، ۱۶۰ ، ۶۱۴-۶۲۶٫ [ Google Scholar ] [ CrossRef ]
  45. وانگ، ز. Bovik، AC میانگین مربعات خطا: آن را دوست دارم یا ترک می کنم؟ فرآیند سیگنال IEEE Mag. ۲۰۰۹ ، ۲۶ ، ۹۸-۱۱۷٫ [ Google Scholar ] [ CrossRef ]
  46. فیضی زاده، ب. یانکوفسکی، پ. Blaschke، T. رویکرد تحلیل عدم قطعیت و حساسیت صریح فضایی مبتنی بر GIS برای تجزیه و تحلیل تصمیم چند معیاره. محاسبه کنید. Geosci. ۲۰۱۴ ، ۶۴ ، ۸۱-۹۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. هنگل، تی. Toomanian, N. نقشه ها آنطور که به نظر می رسند نیستند: نشان دهنده عدم قطعیت در نقشه های خاک. در مجموعه مقالات دقت ۲۰۰۶: هفتمین سمپوزیوم بین المللی ارزیابی دقت فضایی در منابع طبیعی و علوم محیطی، لیسبون، پرتغال، ۵ تا ۷ ژوئیه ۲۰۰۶٫ ص ۸۰۵-۸۱۳٫ [ Google Scholar ]
  48. Goovaerts, P. مدل‌سازی زمین آماری عدم قطعیت در علم خاک. ژئودرما ۲۰۰۱ ، ۱۰۳ ، ۳-۲۶٫ [ Google Scholar ] [ CrossRef ]
  49. Heuvelink، GBM تعیین کمیت عدم قطعیت محصولات نقشه جهانی خاک. اساس اطلاعات فضایی جهانی خاک، سیستم. در مجموعه مقالات اولین کنفرانس نقشه جهانی خاک، اورلئان، فرانسه، ۷ تا ۹ ژانویه ۲۰۱۴٫ صص ۳۳۵-۳۴۰٫ [ Google Scholar ] [ CrossRef ]
  50. کوهن، ام. ساخت مدل های پیش بینی در R با استفاده از بسته کارت. J. Stat. نرم افزار ۲۰۰۸ ، ۲۸ ، ۱-۲۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  51. رایت، MN; Ziegler, A. Ranger: پیاده‌سازی سریع جنگل‌های تصادفی برای داده‌های با ابعاد بالا در C++ و R. J. Stat. نرم افزار ۲۰۱۷ ، ۷۷ ، ۱-۱۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  52. Pebesma، EJ زمین آمار چند متغیره در S: بسته gstat. محاسبه کنید. Geosci. ۲۰۰۴ ، ۳۰ ، ۶۸۳-۶۹۱٫ [ Google Scholar ] [ CrossRef ]
شکل ۱٫ منطقه مورد مطالعه در ساحل دریاچه Orestiada، در واحد منطقه ای Kastoria، یونان.
شکل ۲٫ متغیرهای توپوگرافیک منطقه مورد مطالعه.
شکل ۳٫ متغیرهای کمکی ماهواره ای منطقه مورد مطالعه.
شکل ۴٫ نیم واریوگرام ها و مدل برازش متغیرهای کمکی خاک منطقه مورد مطالعه.
شکل ۵٫ توزیع فضایی متغیرهای کمکی خاک منطقه مورد مطالعه.
شکل ۶٫ نیمه متغیریگرام تجربی و مدل برازش OK و KED.
شکل ۷٫ نتایج ارزیابی فراپارامترها بر اساس R ۲ در مجموعه داده آموزشی.
شکل ۸٫ نتایج ارزیابی فراپارامترها بر اساس R ۲ در مجموعه داده آموزشی.
شکل ۹٫ نمودارهای پراکندگی پیش بینی شده در مقابل مشاهده شده.
شکل ۱۰٫ نقشه های پیش بینی OM خاک.
شکل ۱۱٫ نقشه های عدم قطعیت OM خاک.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما