تشخیص خوشه رویداد نقطه ای از طریق کمند ذوب شده تعمیم یافته بیزی

تشخیص خوشه فضایی یکی از حوزه های تمرکز تحلیل فضایی است که هدف آن شناسایی خوشه ها از توزیع فضایی رویدادهای نقطه ای تجمیع شده در نواحی با مناطق کوچک است. چوی و همکاران (۲۰۱۸) تشخیص خوشه‌ای را به عنوان یک مسئله تخمین پارامتر برای استفاده از قابلیت انتخاب پارامتر از روش مدل‌سازی پراکنده به نام کمند ذوب شده تعمیم‌یافته فرمول‌بندی کرد. اگرچه این کار نسبت به روش‌های مرسوم برای تشخیص خوشه‌های متعدد برتری دارد، اما نتایج تخمین آن محدود به تخمین نقطه‌ای است. بنابراین این مطالعه کار فوق را به عنوان یک روش تشخیص خوشه بیزی برای توصیف تغییرات احتمالی نتایج خوشه‌بندی گسترش داد. روش پیشنهادی پیشینهای چندگانه القا کننده پراکندگی را ترکیب می کند و راه حل های پراکنده ناشی از کمند ذوب شده تعمیم یافته را تشویق می کند.

۱٫ مقدمه

درک عمیق تر از فعالیت های اجتماعی-اقتصادی در مناطق کوچک اغلب برای بحث و برنامه ریزی استراتژی های منطقه ای ضروری است. از آنجایی که سیاست‌های داده باز در بسیاری از بخش‌های عمومی به طور فزاینده‌ای محبوب شده‌اند، طیف وسیعی از داده‌های مکانی نیز با وضوح مکانی بالا در دسترس عموم قرار می‌گیرند. انتظار می‌رود داده‌های جغرافیایی موجود، هنگامی که با روش‌های تحلیل فضایی مؤثر ترکیب می‌شوند، بینش‌های دقیقی را در مورد جنبه‌های جغرافیایی فعالیت‌های اجتماعی-اقتصادی ارائه دهند.
یکی از اشکال رایج داده‌های مکانی، داده‌های رویداد نقطه‌ای است که در پژوهش حاضر مورد توجه قرار گرفته است. داده‌های رویداد نقطه‌ای برای ثبت رویدادها، مانند جنایات یا بیماری‌های عفونی، همراه با مکان آنها استفاده می‌شود. جنبه مهم داده های رویداد نقطه ای، ناهمواری توزیع فضایی آن است. اگر می‌توانستیم بدانیم که آیا مناطقی با خطر بالا برای این رویدادها و مکان‌های مربوط به آن‌ها وجود دارد یا خیر، می‌توانیم اقدامات مؤثری را در برابر چنین رویدادهایی انجام دهیم. بنابراین، مطالعات متعدد روش‌های تشخیص خوشه‌ای را برای شناسایی مجموعه‌هایی از زیرمنطقه‌ها (که به عنوان خوشه‌ها نامیده می‌شوند) پیشنهاد کرده‌اند که با وقوع رویدادهای بالاتر متمایز می‌شوند. ۱ ] و Moran’s I محلی Anselin [ ۲ ].
انگیزه اصلی روش‌های تشخیص خوشه، به دست آوردن اطلاعات خوشه‌ای قابل اعتماد و با جزئیات مکانی از داده‌های رویداد نقطه‌ای است. دستیابی به این امر چالش برانگیز است، زیرا خوشه ها اشکال انعطاف پذیر فضایی را نشان می دهند و ما اغلب دانش قبلی کمی در مورد آنها داریم. با توانایی ارائه شواهد آماری برای خوشه های شناسایی شده، آمار اسکن فضایی [ ۳ ] یک رویکرد تشخیص مرسوم و پرکاربرد است (به عنوان مثال، یک نرم افزار رایگان در دسترس SaTScan [ ۴ ]). این روش برای مقابله با انواع مختلفی از داده‌های رویداد نقطه‌ای، مانند پواسون [ ۳ ]، نمایی [ ۵ ] و داده‌های مورد شاهد [ ۶ ] گسترش یافته است.]. با این حال، در ازای اطمینان از اعتبار آماری، آمار اسکن فضایی به جای خوشه‌های چندگانه، خوشه‌های منفرد را خروجی می‌دهد تا از مشکلات آزمایشی متعددی که در روش آماری رخ می‌دهند جلوگیری شود. علاوه بر این، نتایج خوشه‌بندی این روش به شکل پنجره‌های اسکن از پیش تعریف‌شده، که در کل منطقه مورد مطالعه قرار می‌گیرند، بستگی دارد. از آنجایی که این الزامات از تشخیص خوشه‌هایی با اشکال انعطاف‌پذیر جلوگیری می‌کند، برخی از مطالعات آمار اسکن فضایی را گسترش دادند و تشخیص خوشه‌های متعدد [ ۷ ] و خوشه‌های با شکل نامنظم [ ۸ ، ۹ ] را امکان‌پذیر کردند.]. اگرچه این تلاش‌ها محدودیت‌های آمار اسکن فضایی را کاهش داد، تشخیص خوشه‌های متعدد با مشکلات محاسباتی مواجه است و تنظیمات قبلی هنوز برای شکل پنجره‌های اسکن مورد نیاز است.
در میان روش‌های دیگر، رویکرد مبتنی بر نرخ کشف کاذب (FDR) [ ۱۰ ، ۱۱ ] تکنیک کنترل نرخ کشف نادرست را در تئوری آزمون آماری برای تشخیص خوشه‌ای اعمال می‌کند. این رویکرد امکان گنجاندن تعداد معینی از اکتشافات نادرست را فراهم می کند، در نتیجه امکان تشخیص همزمان خوشه های متعدد را فراهم می کند. با این حال، رویکرد مبتنی بر FDR در ارائه شدت غلظت رویدادها در سطح زیرمنطقه، که به ویژه برای شناسایی خوشه‌هایی که شامل گروه‌بندی‌های زیرمنطقه‌ای به‌هم پیوسته هستند، ضروری است.
برای توسعه یک روش تشخیص خوشه‌ای که خوشه‌های انعطاف‌پذیر فضایی را خروجی می‌دهد، یک روش مبتنی بر مدل‌سازی پراکنده [ ۱۲ ] برای غلبه بر برخی اشکالات عمده روش‌های مرسوم پیشنهاد شده است. چوی و همکاران [ ۱۲ ] تشخیص خوشه‌ای را به‌عنوان یک مسئله برآورد احتمال حداکثری فرمول‌بندی کرد، که در آن تابع درست‌نمایی از مدل رگرسیون پواسون با جریمه‌های کمند ذوب شده تعمیم‌یافته مشتق شده است [ ۱۳ ]]. در مدل رگرسیون پیشنهادی، هر پارامتر شدت مبتنی بر زیرمنطقه نشان‌دهنده درجه غلظت در آن ناحیه است، در حالی که بردار متغیر متغیر پارامترها برای متغیرهای کمکی مشاهده‌شده تنظیم می‌شود. جریمه های کمند ذوب شده تعمیم یافته مقادیر صفر را برای پارامترهای شدت و مقادیر یکسان را برای جفت پارامترهای شدت مجاور القا می کنند. با معرفی جریمه های منظم سازی، روش به تشخیص خوشه ای از طریق مقادیر تخمینی پارامترهای شدت دست می یابد. اگرچه چوی و همکاران. [ ۱۲ ] با موفقیت غلبه بر محدودیت‌های موجود در مورد تشخیص خوشه‌های چندگانه را با معرفی انتخاب پارامتر گزارش کرد، فضایی برای بهبود بیشتر در برآورد پارامتر وجود دارد.
چوی و همکاران [ ۱۲ ] یک روش محاسباتی برای تخمین نقطه خروجی پارامترهای مبتنی بر زیرمنطقه با استفاده از الگوریتم عمده‌سازی-به حداقل رساندن (MM) پیشنهاد کرد [ ۱۴ ]. اگرچه تخمین های نقطه ای اساسی ترین تخمین های پارامتر هستند، اما میزان قابلیت اطمینان پارامترهای برآورد شده را نشان نمی دهند. از آنجایی که ارزیابی قابلیت اطمینان برای نتایج تشخیص خوشه‌ای که در مناطق فرعی متفاوت است، بسیار مهم است، روش تخمین باید قادر به مدیریت عدم قطعیت‌ها باشد.
تخمین بیزی یک چارچوب آماری است که عدم قطعیت پارامترها را به صورت توزیع احتمال بیان می کند. تمام پارامترهای یک مدل آماری را به عنوان متغیرهای تصادفی در نظر می گیرد و توزیع احتمال هر پارامتر را تخمین می زند. در چارچوب بیزی، توزیع احتمالی که دانش قبلی را بیان می کند، می تواند به عنوان توزیع قبلی در نظر گرفته شود. در میان انواع مختلف توزیع احتمال، توزیع لاپلاس [ ۱۵ ، ۱۶ ] به عنوان تشویق کننده پراکندگی در پارامترهای برآورد شده شناخته شده است و به عنوان یک گسترش بیزی از کمند مشاهده می شود. کیونگ و همکاران [ ۱۷ ] بیشتر همتای بیزی کمند ذوب شده تعمیم یافته را برای مدل های رگرسیون خطی به عنوان توزیع قبلی فرموله کرد.
این مطالعه با هدف بهبود ریزدانگی فضایی ارزیابی قابلیت اطمینان با ترکیب یک رویکرد مبتنی بر مدل‌سازی پراکنده با چارچوب بیزی انجام شد. ما یک روش جدید تشخیص خوشه ای را توسعه دادیم که رویکرد چوی و همکاران را گسترش می دهد. [ ۱۲ ] به چارچوب بیزی از طریق یک معادل توزیع قبلی از جریمه های کمند ذوب شده تعمیم یافته و اطلاعات جدیدی در مورد قابلیت اطمینان نتایج خوشه بندی ارائه می دهد. تحلیل‌ها با استفاده از توزیع‌های شبیه‌سازی‌شده و داده‌های واقعی حوادث جرم برای نشان دادن عملکرد تشخیص و ارزیابی‌های قابلیت اطمینان بهبود یافته روش پیشنهادی انجام شد.

۲٫ تشخیص خوشه مبتنی بر مدلسازی پراکنده

تشخیص خوشه‌ای مبتنی بر مدل‌سازی پراکنده [ ۱۲ ] از قابلیت انتخاب پارامتر کمند ذوب شده تعمیم‌یافته استفاده می‌کند. این بخش ابتدا ایده کمند ذوب شده و کمند ذوب شده تعمیم یافته و سپس روش تشخیص خوشه ای را معرفی می کند.

۲٫۱٫ کمند ذوب شده و کمند ذوب شده تعمیم یافته

کمند ذوب شده یک روش مدل سازی پراکنده است که توسط تیبشیرانی و همکاران ارائه شده است. [ ۱۸ ] برای تشخیص نقاط تغییر در داده های سری زمانی. ایده اصلی آن انتخاب پارامترها و شناسایی جفت های متوالی پارامترهایی است که مقدار یکسانی دارند. این با معرفی یک اصطلاح تنظیم L1 در مقادیر پارامتر و تفاوت بین جفت های متوالی پارامترها تحقق می یابد.

مسئله کمینه سازی برای یک مدل رگرسیون خطی با کمند ذوب شده به صورت زیر فرموله شده است:

minβ[yXβ۲۲+λ۱i=1p۱|βi+1βi|+λ۲k=1p|βk|]

جایی که ۲هنجار L2 است، y=(y1,,yn)یک بردار متغیر وابسته است و X=(x1,,xp)یک ماتریس طراحی است. λ۱و λ۲فراپارامترهایی هستند که بر درجات تنظیم L1 حاکم هستند.

کمند ذوب شده تعمیم یافته مفهوم کمند ذوب شده را با ارائه انعطاف پذیری بیشتر به محدودیت های مجاورت گسترش می دهد. این گسترش دامنه کاربردی روش‌های مبتنی بر مدل‌سازی پراکنده را به تحلیل فضایی گسترش داد [ ۱۹ ، ۲۰ ].

کمند ذوب شده تعمیم یافته به صورت زیر نوشته می شود:

minβ⎡⎣yXβ۲۲+λ۱(i,j)C|βiβj|+λ۲k=1p|βk|⎤⎦

جایی که سیمجموعه ای از جفت پارامترهای مجاور است.

از آنجایی که مقادیر بهینه فراپارامترها در معادلات ( ۱ ) و ( ۲ ) به طور کلی ناشناخته هستند، معیارهای اطلاعاتی مانند معیار اطلاعات آکایک (AIC) [ ۲۱ ] یا معیار اطلاعات بیزی (BIC) [ ۲۲ ] اغلب برای مقایسه و ترکیبی از فراپارامترها را تعیین کنید.

۲٫۲٫ تشخیص خوشه‌ای مبتنی بر مدل‌سازی پراکنده

چوی و همکاران [ ۱۲ ] تشخیص خوشه‌ای را از توزیع فضایی رویدادهای نقطه‌ای جمع‌آوری شده در مناطق کوچک با معرفی جریمه کمند ذوب شده تعمیم یافته در مدل رگرسیون پواسون فرمول‌بندی کرد. اول، تعداد رویدادهای نقطه ای ثبت شده در یک زیر منطقه i ( ۱ ، ⋯ ، n) به صورت زیر بیان می شود:

yمن∼ پواسون (μمن)
ورود E(yمن)ورودμمنورودهمن+αمن+ایکسβ

جایی که همنیک اصطلاح افست برای زیرمنطقه i است ، xi=(1,xi1,,xip)یک بردار کمکی است و β=(β۰,,βp)بردار پارامتر مربوطه است که توسط کل منطقه مورد مطالعه مشترک است. α=(α۱,,αn)نشان دهنده یک بردار متشکل از پارامترهای شدت مبتنی بر زیرمنطقه است که درجه غلظت را برای هر زیر منطقه نشان می دهد. اگر ارزش تخمینی از αiبرابر با صفر است، منطقه فرعی i یک خوشه را تشکیل نمی دهد، و اگر مقادیر تخمینی αiبزرگتر از صفر هستند، سپس منطقه فرعی i یک خوشه را تشکیل می دهد.

در اینجا تابع درستنمایی پواسون است L(α,β|X,Y)و تابع لاگ درستنمایی پواسون l(α,β|X,Y)توسط:

L(α,β|X,Y)=i=1nμyii1yi!exp(μi)
l(α,β|X,Y)=i=1nyilogμiμilogyi!

جایی که Xو Yمجموعه ای از داده های مشاهده شده هستند که به صورت تعریف شده اند X=(x1,,xn)و Y=(y1,,yn)، به ترتیب.

با معرفی جریمه کمند ذوب شده تعمیم یافته به تابع لگاریتم درستنمایی پواسون، مسئله تشخیص خوشه [ ۱۲ ] را می توان به صورت زیر فرموله کرد:

minα,β⎡⎣l(α,β|X,Y)+λ۱(i,j)C|αiαj|+λ۲k=1p|αk|+λ۳l=1p|βl|⎤⎦

جایی که Cمجموعه ای از جفت پارامترهای مجاور است و λ۱,λ۲,و λ۳هایپرپارامترها هستند.

خوشه‌ها احتمالاً بخش‌های کوچکی از کل منطقه مورد مطالعه را تشکیل می‌دهند و از مناطق فرعی به هم پیوسته فضایی تشکیل شده‌اند که در تشخیص آنها در نظر گرفته می‌شود. جریمه کمند ذوب شده تعمیم یافته با این هدف مطابقت دارد زیرا این جریمه محدودیت هایی را بر روی خود پارامترها و جفت پارامترهای مجاور به طور همزمان اعمال می کند. بنابراین، چوی و همکاران. [ ۱۲ ] جریمه کمند ذوب شده تعمیم یافته را به پارامترهای شدت مبتنی بر زیرمنطقه معرفی کرد و با استفاده از پارامترهای شدت تخمین زده شده، تشخیص خوشه ای را تحقق بخشید.
از آنجایی که معادله ( ۷ ) شامل یک اصطلاح تنظیم L1 است که غیر قابل تمایز است، چوی و همکاران. [ ۱۲ ] یک روش محاسباتی را پیشنهاد کرد که تخمین نقطه ای را با استفاده از الگوریتم MM [ ۱۴ ] خروجی می دهد. الگوریتم MM یک تکنیک تخمین پارامتر است که با استفاده از یک تابع جایگزین برای تابع هدف، پارامترها را به طور مکرر به روز می کند.

۳٫ مطالعات قبلی در مورد پیشینیان پراکنده

در چارچوب بیزی، برخی از توزیع‌های قبلی به دلیل توانایی آنها در القای راه‌حل‌های پراکنده در توزیع‌های پسین، به عنوان پیشین‌های القاکننده پراکندگی شناخته می‌شوند. به طور خاص، بخش‌هایی از پیشین‌های القاکننده پراکندگی می‌توانند تخمین‌های نقطه‌ای تقریبی از کمند یا بسط آن را، علاوه بر توصیف‌های کمی از عدم قطعیت‌ها در قالب توزیع‌های احتمال، ارائه دهند. این بخش ابتدا همتای بیزی کمند و سپس همتای کمند ذوب شده تعمیم یافته را توضیح می دهد.

۳٫۱٫ کمند بیزی

تیبشیرانی [ ۱۵ ] ابتدا پیشنهاد کرد که در مدل‌های رگرسیون خطی، قرار دادن توزیع‌های لاپلاس مستقل به عنوان توزیع‌های قبلی برای ضرایب رگرسیون می‌تواند توزیع‌های خلفی را به سمت صفر کوچک کند و تخمین‌های کمند را در حالت‌های پسینی کاهش دهد. به دنبال این مفهوم، پارک و کازلا [ ۱۶ ] فرمول نمونه‌گیری گیبس را برای مدل‌های بیزی با توزیع لاپلاس پیشنهاد کردند و آن را «کند بیزی» نامیدند. معادله ( ۸ ) توزیع لاپلاس را به عنوان یک پیشین القا کننده پراکندگی نشان می دهد، همانطور که در [ ۱۶ ] پیشنهاد شده است:

π(β|λ,σ۲)π(σ۲)=i=1pλ۲σ۲−−√exp(λ|βi|/σ۲−−√)=۱σ۲

جایی که β=(β۱,,βp)بردار متغیر کمکی است و λیک هایپرپارامتر قابل مقایسه با پارامتر تنظیم در کمند است. پارک و کازلا [ ۱۶ ] بیان کردند که با فرض پیش‌بینی نامناسب σ۲می تواند در برخی موارد از چند حالت خلفی اجتناب کند.

۳٫۲٫ کمند ذوب شده تعمیم یافته بیزی

کیونگ و همکاران [ ۱۷ ] کمند بیزی را گسترش داد و کمند ذوب شده بیزی را برای مدل‌های رگرسیون خطی پیشنهاد کرد. ضرایب رگرسیون قبلی فرموله شده به صورت زیر بدست می آید:

π(β|λ۱,λ۲,σ۲)i=1p۱exp(λ۱σ|βi+1βi|)j=1pexp(λ۲σ|βj|)

جایی که λ۱و λ۲هایپرپارامتر هستند.

معادله ( ۹ ) را می توان به راحتی به کمند ذوب شده تعمیم یافته بیزی تعمیم داد که فرمول آن شامل چندین توزیع لاپلاس است و به صورت زیر نوشته می شود:

πβ |λ۱،λ۲،σ۲) ∝∈ Cexp ( –λ۱σ|βمنβj)۱پexp ( –λ۲σ|βک)

جایی که سیمجموعه ای از جفت پارامترهای مجاور است.

معادلات ( ۹ ) و ( ۱۰ ) به ترتیب با نسخه بیزی کمند ذوب شده و کمند ذوب شده تعمیم یافته مطابقت دارند.

۴٫ روش پیشنهادی

۴٫۱٫ احتمال و توزیع های قبلی

این مطالعه تشخیص خوشه‌ای مبتنی بر مدل‌سازی پراکنده را به چارچوب بیزی گسترش می‌دهد. برنامه افزودنی اطلاعاتی در مورد قابلیت اطمینان همه پارامترهای تخمین زده ارائه می دهد. یک منطقه مطالعه متشکل از n زیر منطقه را در نظر بگیرید. اجازه دهید yمنتعداد رویدادهای نقطه ای ثبت شده در زیر منطقه i باشد ( ۱ ، ⋯ ، n) و همنعبارت افست زیرمنطقه i باشد. ایکسمن=( ۱ ،ایکسمن ۱، ⋯ ،ایکسمن ص)یک بردار کمکی است و β =(β۰،β۱، ⋯ ،βپ)=(β۰،β˜)بردار پارامتر مربوط به آن است. سپس، α =(α۱، ⋯ ،αn)نشان دهنده یک بردار متشکل از پارامترهای شدت مبتنی بر زیرمنطقه است.

با فرض فرآیند نقطه پواسون، تعداد نقاط yمنتوسط مدل رگرسیون پواسون زیر ارائه می شود:

ورود E(yمن) = ورودμمنورودهمن+αمن+ایکسβ

پس از آن، تابع درستنمایی پواسون معادله ( ۱۱ ) را می توان به صورت زیر نوشت:

π( X، یα ، β ) =۱nμyمنمن۱yمن!exp ( –μمن)

جایی که ایکسو Yمجموعه ای از داده های مشاهده شده تعریف شده توسط ایکس=(ایکس۱، ⋯ ،ایکسn)و Y=(y1، ⋯ ،yn)، به ترتیب.

اکنون، توزیع قبلی مشترک را برای بردار پارامتر شدت تعریف می کنیم αو بردار متغیر β˜مانند:

π( α _β˜∣∣λ۱،λ۲،λ۳) =∈ Cexp{λ۱|αiαj|}i=1nexp{λ۲|αi|}i=1pexp{λ۳|βi|}

جایی که Cمجموعه ای از جفت پارامترهای مجاور است و λ۱,λ۲,و λ۳هایپرپارامترها هستند. در این مطالعه، مجاورت به عنوان یک جفت زیرمنطقه که مرزهای جغرافیایی مشترک دارند، تعریف شده است.

معادله ( ۱۳ ) از توزیع های لاپلاس متعدد تشکیل شده است و به یک راه حل پراکنده دست می یابد که توسط کمند ذوب شده تعمیم یافته در حالت خلفی تشویق می شود. علاوه بر این، یک قبل غیر اطلاعاتی π(β۰)قرار داده شده است β۰. توزیع پسین حاصل از معادلات ( ۱۲ ) و ( ۱۳ ) برابر است با تابع احتمال جریمه شده پیشنهاد شده در [ ۱۲ ] پس از تبدیل لگاریتمی. بنابراین، حداکثر برآوردگرهای پسینی (MAP) به دست آمده از معادلات ( ۱۲ ) و ( ۱۳ ) با مقادیر تخمین زده شده مسئله تشخیص خوشه در [ ۱۲ ] مطابقت دارد.

۴٫۲٫ تنظیم فراپارامترها با معیار اطلاعات Watanabe-Akaike

توزیع قبلی پیشنهادی π(α,β˜∣∣λ۱,λ۲,λ۳)شامل فراپارامترها می باشد λ۱، λ۲، و λ۳، که مقدار آن باید قبل از تخمین پارامتر تنظیم شود. معیار اطلاعات Watanabe-Akaike (WAIC) [ ۲۳ ]، یک معیار اطلاعاتی ثابت شده که برای مقایسه مدل‌های بیزی مناسب است [ ۲۴ ]، در این مطالعه برای انتخاب مجموعه بهینه ابرپارامترها استفاده شد. تنظیم هایپرپارامترها با از پیش تعریف کردن چندین مقدار کاندید برای هر هایپرپارامتر شروع می شود. سپس، تخمین‌های بیزی برای همه ترکیب‌های مقادیر کاندید انجام می‌شود و مقدار WAIC محاسبه می‌شود. پس از آن، مجموعه‌ای از مقادیر کاندید که مقدار WAIC را به حداقل می‌رساند و یک تست همگرایی را پشت سر می‌گذارد به عنوان فراپارامترهای بهینه استفاده می‌شود.

۵٫ ارزیابی

۵٫۱٫ ارزیابی با توزیع های شبیه سازی شده

این بخش ویژگی های روش پیشنهادی را با استفاده از توزیع های شبیه سازی شده نشان می دهد. مقایسه عملکرد نیز بین روش پیشنهادی و [ ۱۲ ] ارائه شده است.

۵٫۱٫۱٫ بررسی اجمالی

ما یک منطقه مطالعاتی شبکه مانند دو بعدی را با یک خوشه در مرکز منطقه در نظر گرفتیم، مانند شکل ۱ . منطقه مورد مطالعه شامل ۱۷×۱۷زیرمنطقه های گسسته، و خوشه از ۵×۵مناطق فرعی هدف از تشخیص خوشه تعیین مکان خوشه ها و شکل آنها است، یعنی فهرست کردن مجموعه های زیرمنطقه های ممکن که خوشه ها را تشکیل می دهند. از این پس، مجموعه تمامی زیرمنطقه های منطقه مورد مطالعه به صورت نمایش داده می شود N، مجموعه ای از زیرمنطقه های داخل خوشه توسط C، و مجموعه ای از زیرمنطقه های خارج از خوشه توسط CC.
با فرض یک فرآیند نقطه پواسون، به طور تصادفی داده های شمارشی (یعنی تعداد رویدادهای نقطه ای) برای هر زیر منطقه از توزیع پواسون تولید کردیم. برای شبیه سازی وجود خوشه مرکزی که با وقوع رویداد بالاتر مشخص می شود، تعداد مورد انتظار رویدادهای نقطه ای در مناطق فرعی در Cچندین برابر بیشتر از آن در تنظیم شد CC. این با تغییر پارامتر توزیع پواسون که میانگین و واریانس آن را تعریف می کند، به دست آمد. در این مطالعه، ما توزیع‌های شبیه‌سازی شده برای ۱۵ سناریو را با انتخاب تعداد مورد انتظار نقاط خارج از آن تولید کردیم. Cاز جانب {۱۰,۲۰,۳۰}و نسبت چگالی نقطه ای (یعنی نسبت تعداد نقاط مورد انتظار درون یک خوشه به خارج از یک خوشه) از {۱٫۲۵,۱٫۵,۲٫۰,۲٫۵,۳٫۰}. برای هر سناریو، این ارزیابی فرآیند تخمین پارامتر را با نامزدهای فراپارامتر فهرست شده در جدول ۱ تکرار کرد. این شبیه‌سازی متغیرهای کمکی را شامل نمی‌شد زیرا تمرکز اولیه بر ارزیابی مکانیسم منظم‌سازی برای پارامترهای مجاور فضایی در طول تشخیص خوشه بود.
فرآیند تخمین پارامتر به شرح زیر است: یک پلت فرم مدلسازی بیزی Stan از توزیع های خلفی برای همه پارامترها از طریق الگوریتم مونت کارلو همیلتونی [ ۲۵ ] نمونه برداری می کند. هر فرآیند تخمین به طور مستقل چهار توالی زنجیره مارکوف را تولید می کند. تعداد کل تکرارها ۲۰۰۰ برای همه پارامترها بود، که در آن ۵۰۰ تکرار سوزاندن اول کنار گذاشته شد. پس از تکمیل همه تکرارها، آمار گلمن-روبین R^۲۶ ] برای بررسی همگرایی توزیع های خلفی استفاده شد. مقدار آستانه از R^تنظیم شد ۱٫۱.

توزیع‌های خلفی نمونه‌برداری شده از پارامترهای شدت تعیین می‌کنند که آیا هر زیرمنطقه یک خوشه را تشکیل می‌دهد یا خیر. احتمال آستانه p از قبل تنظیم شده بود، و اگر مقدار نقطه درصد پایین p پارامتر شدت تخمینی اختصاص داده شده به یک منطقه فرعی از صفر بیشتر شود، آن منطقه فرعی به عنوان یک خوشه تشخیص داده می شود. در این مطالعه، p=0.1برای احتمال آستانه پذیرفته شد زیرا طبقه بندی خوشه ای با این آستانه نتایجی قابل مقایسه با روش چوی ایجاد کرد. از نتایج خوشه‌بندی برای همه زیرمنطقه‌ها، ما دو معیار عملکرد، یعنی توان و نرخ مثبت کاذب را محاسبه کردیم که معمولاً یک رابطه مبادله دارند. تعاریف آنها به شرح زیر است:

قدرت=عددازشناسایی شدهمناطق فرعیداخلسیعددازمناطق فرعیداخلسی
نادرست – مثبتنرخ=عددازشناسایی شدهمناطق فرعیداخلسیسیعددازمناطق فرعیداخلسیسی
در هر سناریو، اندازه‌گیری‌ها پس از ۱۰۰ بار تکرار مراحل تولید داده و تشخیص خوشه‌ای، میانگین‌گیری شدند. علاوه بر این، ما عملکرد را با روش در Choi و همکاران مقایسه کردیم. [ ۱۲ ] (“روش چوی”) برای همان مجموعه داده. جدول ۲ فراپارامترهای کاندید روش چوی را نشان می دهد. ترکیب بهینه ابرپارامترها بر اساس BIC انتخاب شد. در روش چوی، اگر تخمین نقطه ای پارامتر شدت تخصیص داده شده به یک زیر منطقه بزرگتر از صفر باشد، منطقه فرعی شناسایی شده در نظر گرفته می شود.

۵٫۱٫۲٫ نتایج

برای ارائه نمونه‌های تجسم نتایج خوشه‌بندی، ابتدا روش پیشنهادی را برای یک توزیع شبیه‌سازی شده اعمال کردیم ( شکل ۲ ). توزیع در شرایطی ایجاد شد که تعداد نقاط مورد انتظار خارج از یک خوشه ۱۰ و نسبت چگالی نقطه بود. ۲٫۰.
نتایج خوشه بندی نشان داده شده در شکل ۳ شامل دو تجسم است: ضرایب تخمینی مبتنی بر منطقه فرعی و انحراف استاندارد آنها. به طور خاص، شکل ۳ ب بر اساس روش پیشنهادی است. در تخمین بیزی، انحراف معیار یک پارامتر نشانگر قابلیت اطمینان نتایج تخمینی پارامتر است. شکل ۳ تأیید می کند که قابلیت اطمینان در مناطق فرعی نزدیک به مرزهای یک خوشه نسبتاً کمتر بود، بنابراین نشان می دهد که مرزهای خوشه به اندازه کافی از داده های شمارش داده شده شناسایی نشده اند. این تجسم ها نشان می دهد که روش پیشنهادی اطلاعاتی در مورد قابلیت اطمینان نتایج تشخیص ارائه می دهد.
معیارهای عملکرد روش های پیشنهادی و چوی در جدول ۳ و جدول ۴ خلاصه شده است. جدول ۳ قدرت را نشان می دهد و جدول ۴ نرخ های مثبت کاذب را برای تمام ۱۵ سناریو نشان می دهد. در هر دو روش، با افزایش تعداد نقاط مورد انتظار خارج از خوشه یا نسبت چگالی نقطه، توان ( جدول ۳ ) به طور مشابه افزایش یافت و به مقدار نزدیک به ۱۰۰۰زمانی که نسبت چگالی نقطه ای فراتر رفت ۲٫۰.
نرخ مثبت کاذب بین پایین باقی ماند ۰٫۰۰۰و ۰٫۰۳۰، در نتیجه شباهت بین دو روش را نشان می دهد. نتایج فوق تأیید می‌کند که روش پیشنهادی خوشه‌ها را با دقتی قابل مقایسه با روش چوی تشخیص می‌دهد و اطلاعات جدیدی در مورد تغییرات احتمالی نتایج خوشه‌بندی ارائه می‌دهد.
با تمرکز بر تفاوت عملکردهای تشخیص، می بینیم که نرخ مثبت کاذب ( جدول ۴) برای روش پیشنهادی با افزایش نسبت چگالی نقطه و جدا شدن خوشه از پس‌زمینه، برخلاف روش چوی، کاهش نیافت. این تفاوت به معیارهای اطلاعاتی اتخاذ شده در روش های مربوطه نسبت داده شد. BIC مورد استفاده در روش Choi به نفع یک راه حل به شدت جریمه شده است زیرا اگر یک پارامتر واحد یا اختلاف جفت پارامترهای مجاور صفر تخمین زده شود، مقدار آن بهبود می یابد. در مقابل، WAIC اتخاذ شده در مدل بیزی پیشنهادی، راه‌حل شدیداً جریمه‌شده را ترجیح نمی‌دهد، زیرا صرفاً تخمین پارامترها به عنوان صفر، معیار را بهبود نمی‌بخشد. راه حل با جریمه ضعیف تعیین شده توسط WAIC احتمالاً منجر به نرخ مثبت کاذب ثابت برای مدل پیشنهادی می شود که در آن نسبت چگالی نقطه بزرگ است. با توجه به این تفاوت ها بین این دو روش،

۵٫۲٫ ارزیابی با داده های دنیای واقعی

برای بررسی روش پیشنهادی در محیط های عملی، این بخش کاربرد روش پیشنهادی را در داده های جرم و جنایت در دنیای واقعی ارائه می دهد.

۵٫۲٫۱٫ منطقه هدف و توصیف داده ها

منطقه هدف این تحلیل ( شکل ۴ ) منطقه مرکزی توکیو بود که شامل پنج شهرداری به نام‌های چیودا، چوئو، شینجوکو، میناتو و شیبویا است. مجموعه داده رویداد نقطه ای مورد استفاده در این تجزیه و تحلیل داده های سرقت غیر مزاحم از سال ۲۰۱۹ بود. این مجموعه داده رویداد نقطه ای انتخاب شد زیرا یکی از کاربردهای معمول تشخیص خوشه، تجزیه و تحلیل جرم است [ ۸ ، ۲۷ ]. این مجموعه داده در دسترس عموم، تعداد موارد سرقت غیر سرزده شناسایی شده توسط آژانس‌های پلیس محلی را برای سال ۲۰۱۹ در سطح منطقه فرعی ثبت می‌کند (به ژاپنی «چو»). همانطور که در شکل ۵ نشان داده شده است ، منطقه هدف دارای ۵۴۶ ولسوالی است و تعداد جنایات در منطقه مربوطه در مجموع ۱۲۳۹۶ مورد است. عدد متوسط ​​است ۲۲٫۷موارد در هر منطقه، با کمترین صفر و بالاترین ۸۳۷٫ این تجزیه و تحلیل از مناطق مناطق برای جبران و تعداد کارکنان درگیر در بخش خرده فروشی به عنوان متغیر کمکی استفاده کرد.

۵٫۲٫۲٫ تنظیمات تخمین

همانند تحلیل شبیه‌سازی در بخش قبل، تحلیل عملی برای تخمین پارامترها از طریق نمونه‌گیری مونت کارلو روی Stan انجام شد. فرآیند تخمین چهار توالی زنجیره مارکوف را به طور مستقل ایجاد کرد. تعداد کل تکرارها در هر دنباله ۲۰۰۰ بود، با ۵۰۰ تکرار اولیه سوزاندن دور انداخته شد. مقدار آستانه آمار گلمن-روبین بر روی تنظیم شد ۱٫۱جدول ۵ مقادیر کاندید هایپرپارامترها را نشان می دهد. این تجزیه و تحلیل حاوی تخمین‌های مکرر با تمام ترکیب‌های ممکن از مقادیر نامزد بود و ترکیب کمینه‌سازی WAIC را برای فراپارامترهای بهینه اتخاذ کرد.

۵٫۲٫۳٫ نتایج

شکل ۶ و شکل ۷ به ترتیب ضرایب تخمینی مبتنی بر زیرمنطقه و انحراف معیار آنها را نشان می دهد. ما همین آستانه را تعیین کردیم ۰٫۱مانند ارزیابی قبلی با توزیع های شبیه سازی شده. روش پیشنهادی ۱۶۶ منطقه را به عنوان خوشه شناسایی کرد. پارامتر تخمینی متغیر کمکی ۰٫۳۰ و انحراف معیار آن ۰٫۰۸ بود. شکل ۶ توزیع فضایی خوشه ها را پس از تنظیم برای متغیرهای کمکی نشان می دهد. اول، ما تأیید کردیم که مرکز شهرهای شلوغ در نزدیکی ایستگاه های شینجوکو و شیبویا به طور مشخص شناسایی شده اند. اگرچه این مشاهدات زمانی که ما برای اولین بار نقشه کروپلث را می بینیم به راحتی قابل تصور است و ممکن است قابل توجه نباشد، شکل ۶ چندین محله در اطراف ایستگاه روپونگی را شناسایی می کند که به اندازه کافی در نقشه کروپلت برجسته نشده اند. این نشان‌دهنده وجود احتمالی کانون‌های جرم متمرکز مکانی است که در آن تعداد جرم نسبتاً کم است. شکل ۷تایید می کند که روش پیشنهادی انحراف استاندارد ضرایب مبتنی بر زیرمنطقه را برای مقادیر مختلف در سراسر منطقه هدف تخمین زده است. ناهمواری فضایی انحرافات استاندارد برآورد شده، توانایی روش پیشنهادی را برای شناسایی قابلیت اطمینان‌های متغیر مکانی در داده‌های دنیای واقعی و افزایش تفسیر داده‌ها نشان می‌دهد.

۵٫۳٫ بحث

این مطالعه روش پیشنهادی را از دیدگاه عملکرد تشخیص و قابلیت های ارزیابی قابلیت اطمینان ارزیابی کرد. اولین ارزیابی با مجموعه داده شبیه سازی شده در درجه اول عملکرد تشخیص را با روش چوی مقایسه کرد. این مقایسه تأیید کرد که روش پیشنهادی عملکرد قابل مقایسه با روش پایه را حفظ می کند. ارزیابی زیر با مجموعه داده‌های جرم در دنیای واقعی تأیید کرد که روش پیشنهادی قابلیت اطمینان کمی را برای هر زیر منطقه به دست می‌دهد.
این نتایج تأیید می‌کند که روش پیشنهادی، روش چوی را با ارائه ارزیابی‌های قابلیت اطمینان جدید در سطح زیرمنطقه، حداقل واحد فضایی تحلیل، پیشرفت می‌دهد. کاربرد دنیای واقعی نشان داد که قابلیت اطمینان نتایج تشخیص می‌تواند از نظر مکانی در سطح زیرمنطقه متفاوت باشد تا یکنواخت. این واقعیت می‌تواند بر تفسیر نتایج تأثیر بگذارد و در نتیجه اهمیت ارزیابی‌های قابلیت اطمینان با دانه‌بندی فضایی کافی را نشان می‌دهد. با این حال، از آنجایی که اکثر روش‌های تشخیص موجود، از جمله روش Choi، هیچ نمایشی از اطلاعات قابلیت اطمینان را ارائه نمی‌دهند، این یافته‌ها ممکن است بدون روش پیشنهادی نادیده گرفته شوند. بنابراین، این مطالعه به بهبود ارزیابی های قابلیت اطمینان، یک عنصر حیاتی در تشخیص خوشه کمک کرد.

۶٫ نتیجه گیری

این مطالعه یک روش تشخیص خوشه بیزی را پیشنهاد کرد که می تواند اطلاعاتی در مورد قابلیت اطمینان نتایج خوشه بندی ارائه دهد. روش پیشنهادی رویکرد تشخیص خوشه‌ای مبتنی بر مدل‌سازی پراکنده را که توسط چوی و همکارانش فرمول‌بندی شده است، گسترش می‌دهد. [ ۱۲ ] به چارچوب بیزی. توسعه با ساخت یک مدل بیزی با استفاده از چند پیشین القاء کننده پراکندگی برای تشویق یک راه حل پراکنده معادل آنچه در کار فوق به دست آمده بود، به دست آمد. این مطالعه ابتدا تابع درستنمایی و توزیع قبلی مدل بیزی پیشنهادی را با هم ارزی ریاضی با مدل توسط چوی و همکاران فرموله کرد. [ ۱۲سپس، تجزیه و تحلیل با استفاده از توزیع های شبیه سازی شده و داده های جرم و جنایت در دنیای واقعی مرکز توکیو انجام شد. تجزیه و تحلیل شبیه‌سازی نشان داد که روش پیشنهادی می‌تواند قابلیت اطمینان نتایج خوشه‌بندی را در سطح زیرمنطقه تعیین کند و خوشه‌ها را با دقتی قابل مقایسه با کار قبلی برای اکثر سناریوهای ارزیابی‌شده تشخیص دهد. تجزیه و تحلیل داده های جرم تایید کرد که روش پیشنهادی می تواند قابلیت اطمینان مکانی متفاوت را در داده های دنیای واقعی به دست آورد. این یافته‌ها اعتبار و سهم مطالعه حاضر در روش‌های تشخیص خوشه‌ای را با بهبود دانه‌بندی فضایی ارزیابی‌های قابلیت اطمینان، تقویت می‌کنند. این بهبود منجر به دستیابی به تفسیر قابل اعتماد تری از خوشه ها شد.
روش پیشنهادی می‌تواند برای ترکیب ماهیت زمانی داده‌های رویداد نقطه‌ای بهبود یابد. اگرچه مطالعه حاضر فقط جنبه جغرافیایی پدیده ها را در نظر گرفته است، روش پیشنهادی می تواند مجاورت را به شیوه ای انعطاف پذیر مدل کند. این پسوند باید مفید باشد، به ویژه برای پدیده هایی که در طول زمان به سرعت تغییر می کنند.
همچنین بهبودهای احتمالی وجود دارد که ممکن است به عملکرد بهتر کمک کند. فن و لی [ ۲۸ ] نشان دادند که برآوردگرهای کمند به سمت صفر سوگیری دارند. همانطور که روش پیشنهادی توزیع لاپلاس را معرفی می‌کند، همتای بیزی کمند، تخمین‌های مغرضانه ممکن است دقت تشخیص را بدتر کند. در زمینه بیزی، برخی از مطالعات، اولویت‌های القای پراکندگی جایگزین را برای توزیع لاپلاس پیشنهاد کرده‌اند. قابل توجه است، توزیع گاما نرمال-نمایی (NEG) [ ۲۹ ] و نعل اسبی قبل از [ ۳۰ ، ۳۱ ] از نظر تئوری نشان داده شده است که تعصبات برآوردگرهای کمند را کاهش می دهد. اتخاذ اینها به جای توزیع لاپلاس ممکن است خط خوبی برای تحقیقات آینده باشد.

مشارکت های نویسنده

مفهوم سازی، ریو ماسودا; روش شناسی، ریو ماسودا؛ نرم افزار، ریو ماسودا; اعتبارسنجی، ریو ماسودا؛ تحلیل رسمی، ریو ماسودا; تحقیق، ریو ماسودا; منابع، Ryo Inoue; سرپرستی داده، ریو ماسودا؛ نوشتن – آماده سازی پیش نویس اصلی، ریو ماسودا; نوشتن-بررسی و ویرایش، ریو اینو و ریو ماسودا. تجسم، ریو ماسودا; نظارت، ریو اینو؛ مدیریت پروژه، ریو اینو؛ تملک سرمایه، ریو اینو. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این تحقیق توسط انجمن ژاپن برای ارتقاء علم KAKENHI، شماره های کمک هزینه JP18H01552 و JP21H01447 تامین شده است.

بیانیه در دسترس بودن داده ها

مجموعه داده های در دسترس عموم در این مطالعه مورد تجزیه و تحلیل قرار گرفت. این داده‌ها را می‌توانید در اینجا پیدا کنید: https://www.keishicho.metro.tokyo.lg.jp/about_mpd/jokyo_tokei/jokyo/ninchikensu.html (در ۲۰ ژانویه ۲۰۲۲ قابل دسترسی است) و https://www.e-stat. go.jp/en/stat-search/files?page=1&toukei=00200553&tstat=000001095895 (دسترسی در ۲۰ ژانویه ۲۰۲۲).

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

  1. گتیس، ع. Ord, JK تجزیه و تحلیل ارتباط فضایی با استفاده از آمار فاصله. Geogr. مقعدی ۱۹۹۲ ، ۲۴ ، ۱۸۹-۲۰۶٫ [ Google Scholar ] [ CrossRef ]
  2. Anselin، L. شاخص های محلی ارتباط فضایی-LISA. Geogr. مقعدی ۱۹۹۵ ، ۲۷ ، ۹۳-۱۱۵٫ [ Google Scholar ] [ CrossRef ]
  3. کولدورف، ام. Nagarwalla، N. خوشه های بیماری فضایی: تشخیص و استنتاج. آمار پزشکی ۱۹۹۵ ، ۱۴ ، ۷۹۹-۸۱۰٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
  4. Kulldorff, M. SaTScan v10.0.2: نرم افزاری برای آمار اسکن مکانی، زمانی و فضا-زمان. ۲۰۲۲٫ در دسترس آنلاین: https://www.satscan.org/ (دسترسی در ۲۵ فوریه ۲۰۲۲).
  5. هوانگ، ال. کولدورف، ام. گرگوریو، دی. آمار اسکن فضایی برای داده های بقا. بیومتریک ۲۰۰۷ ، ۶۳ ، ۱۰۹-۱۱۸٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  6. یونگ، I. آمار اسکن فضایی برای داده های مورد-شاهد همسان. PLoS ONE ۲۰۱۹ , ۱۴ , e0221225. [ Google Scholar ] [ CrossRef ]
  7. تاکاهاشی، ک. Shimadzu، H. تشخیص خوشه های بیماری فضایی متعدد: معیار اطلاعات و رویکرد آماری اسکن. بین المللی J. Health Geogr. ۲۰۲۰ ، ۱۹ ، ۱-۱۱٫ [ Google Scholar ] [ CrossRef ]
  8. دوکزمال، ال. Assuncao، R. یک استراتژی بازپخت شبیه سازی شده برای تشخیص خوشه های فضایی با شکل دلخواه. محاسبه کنید. آمار داده آنال. ۲۰۰۴ ، ۴۵ ، ۲۶۹-۲۸۶٫ [ Google Scholar ] [ CrossRef ]
  9. دوکزمال، ال. Cançado، AL; تاکاهاشی، RH; Bessegato، LF یک الگوریتم ژنتیک برای آمار اسکن فضایی با شکل نامنظم. محاسبه کنید. آمار داده آنال. ۲۰۰۷ ، ۵۲ ، ۴۳-۵۲٫ [ Google Scholar ] [ CrossRef ]
  10. کالداس د کاسترو، م. سینگر، BH کنترل نرخ کشف نادرست: یک برنامه کاربردی جدید برای محاسبه تست‌های متعدد و وابسته در آمار محلی تداعی فضایی. Geogr. مقعدی ۲۰۰۶ ، ۳۸ ، ۱۸۰-۲۰۸٫ [ Google Scholar ] [ CrossRef ]
  11. براندون، سی. چارلتون، ام. ارزیابی اثربخشی آزمون فرضیه‌های چندگانه برای تشخیص ناهنجاری جغرافیایی. محیط زیست طرح. طرح. دس ۲۰۱۱ ، ۳۸ ، ۲۱۶-۲۳۰٫ [ Google Scholar ] [ CrossRef ]
  12. چوی، اچ. آهنگ، ای. هوانگ، اس اس؛ Lee, W. یک الگوریتم کمند تعمیم یافته اصلاح شده برای تشخیص خوشه های فضایی محلی برای داده های شمارش. ASTA Adv. آمار مقعدی ۲۰۱۸ ، ۱۰۲ ، ۵۳۷-۵۶۳٫ [ Google Scholar ] [ CrossRef ]
  13. طبشیرانی، ر.ج. Taylor, J. مسیر حل کمند تعمیم یافته. ان آمار ۲۰۱۱ ، ۳۹ ، ۱۳۳۵-۱۳۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. هانتر، DR. Li, R. انتخاب متغیر با استفاده از الگوریتم های MM. ان آمار ۲۰۰۵ ، ۳۳ ، ۱۶۱۷-۱۶۴۲٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  15. تیبشیرانی، انقباض و انتخاب رگرسیون RJ از طریق کمند. JR Stat. Soc. سر. B (Methodol.) ۱۹۹۶ ، ۵۸ ، ۲۶۷-۲۸۸٫ [ Google Scholar ] [ CrossRef ]
  16. پارک، تی. کازلا، جی. کمند بیزی. مربا. آمار دانشیار ۲۰۰۸ ، ۱۰۳ ، ۶۸۱-۶۸۶٫ [ Google Scholar ] [ CrossRef ]
  17. کیونگ، ام. گیل، جی. قوش، م. Casella، G. رگرسیون مجازات، خطاهای استاندارد، و کمند بیزی. مقعد بیزی. ۲۰۱۰ ، ۵ ، ۳۶۹-۴۱۱٫ [ Google Scholar ]
  18. طبشیرانی، ر. ساندرز، ام. راست، اس. ژو، جی. Knight، K. پراکندگی و صافی از طریق کمند ذوب شده. JR Stat. Soc. سر. B (Stat. Methodol.) ۲۰۰۵ ، ۶۷ ، ۹۱-۱۰۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  19. اینو، آر. ایشیاما، آر. سوگیورا، الف. شناسایی تقسیم بندی جغرافیایی بازار مسکن اجاره ای در منطقه شهری توکیو توسط کمند ذوب شده تعمیم یافته. J. Jpn. Soc. مدنی مهندس سر. D3 (Infrastruct. Plan. Manag.) ۲۰۲۰ ، ۷۶ ، ۲۵۱-۲۶۳٫ (به ژاپنی) [ Google Scholar ] [ CrossRef ]
  20. اینو، آر. ایشیاما، آر. Sugiura، A. شناسایی تفاوت های محلی با fused-MCP: مطالعه موردی بازار اجاره آپارتمان در تشخیص تقسیم بندی جغرافیایی. Jpn. J. Stat. اطلاعات علمی ۲۰۲۰ ، ۳ ، ۱۸۳-۲۱۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. Akaike, H. نگاهی جدید به شناسایی مدل آماری. IEEE Trans. خودکار کنترل. ۱۹۷۴ ، ۱۹ ، ۷۱۶-۷۲۳٫ [ Google Scholar ] [ CrossRef ]
  22. شوارتز، جی. برآورد ابعاد یک مدل. ان آمار ۱۹۷۸ ، ۶ ، ۴۶۱-۴۶۴٫ [ Google Scholar ] [ CrossRef ]
  23. واتانابه، اس. هم ارزی مجانبی اعتبار متقاطع بیز و معیار اطلاعاتی به طور گسترده در نظریه یادگیری منفرد. جی. ماخ. فرا گرفتن. Res. ۲۰۱۰ ، ۱۱ ، ۳۵۷۱-۳۵۹۴٫ [ Google Scholar ]
  24. گلمن، ا. هوانگ، جی. Vehtari, A. درک معیارهای اطلاعات پیش بینی برای مدل های بیزی. آمار محاسبه کنید. ۲۰۱۴ ، ۲۴ ، ۹۹۷-۱۰۱۶٫ [ Google Scholar ] [ CrossRef ]
  25. دوان، اس. کندی، AD; پندلتون، بی‌جی؛ روث، دی. هیبرید مونت کارلو. فیزیک Lett. B ۱۹۸۷ ، ۱۹۵ ، ۲۱۶-۲۲۲٫ [ Google Scholar ] [ CrossRef ]
  26. گلمن، ا. استنتاج روبین، DB از شبیه سازی تکراری با استفاده از توالی های متعدد. آمار علمی ۱۹۹۲ ، ۷ ، ۴۵۷-۴۷۲٫ [ Google Scholar ] [ CrossRef ]
  27. Shiode، S. آمار اسکن فضایی در سطح خیابان و STAC برای تجزیه و تحلیل غلظت جرایم خیابانی. ترانس. GIS ۲۰۱۱ ، ۱۵ ، ۳۶۵-۳۸۳٫ [ Google Scholar ] [ CrossRef ]
  28. فن، جی. Li, R. انتخاب متغیر از طریق احتمال جریمه شده غیر مقعر و خواص اوراکل آن. مربا. آمار دانشیار ۲۰۰۱ ، ۹۶ ، ۱۳۴۸-۱۳۶۰٫ [ Google Scholar ] [ CrossRef ]
  29. گریفین، جی. براون، PJ Bayesian hyper-lassos با پنالتی غیر محدب. اوست آمار NZJ ۲۰۱۱ ، ۵۳ ، ۴۲۳-۴۴۲٫ [ Google Scholar ] [ CrossRef ]
  30. کاروالیو، سی ام. پولسون، NG; اسکات، جی جی مدیریت پراکندگی از طریق نعل اسب. جی. ماخ. فرا گرفتن. Res. ۲۰۰۹ ، ۵ ، ۷۳-۸۰٫ [ Google Scholar ]
  31. کاروالیو، سی ام. پولسون، NG; Scott, JG برآوردگر نعل اسبی برای سیگنال های پراکنده. Biometrika ۲۰۱۰ ، ۹۷ ، ۴۶۵-۴۸۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل ۱٫ منطقه مطالعاتی شبکه مانند دوبعدی با داده های شمارش تصادفی تولید شده. زیرمنطقه های قرمز در مرکز یک خوشه را تشکیل می دهند.
شکل ۲٫ توزیع فضایی داده های شبیه سازی شده. هر زیر منطقه با توجه به تعداد رخدادهای نقطه ای رنگ می شود.
شکل ۳٫ نتایج روش پیشنهادی برای شکل ۲ . ( الف ) ضرایب تخمینی مبتنی بر منطقه فرعی. رنگ هر زیرمنطقه با درجه غلظت مطابقت دارد و مناطق فرعی محصور در خطوط پررنگ به عنوان یک خوشه تشخیص داده می شوند. ( ب ) انحراف استاندارد ضرایب تخمینی مبتنی بر منطقه فرعی. رنگ‌های تیره‌تر نشان‌دهنده قابلیت اطمینان کمتر برای ضرایب تخمینی در زیرمنطقه‌های مربوطه است.
شکل ۴٫ منطقه مورد نظر و تقسیم فضایی آن به واحدهای ناحیه. شبکه های راه آهن و چندین ایستگاه بزرگ نیز روی نقشه نشان داده شده اند.
شکل ۵٫ نقشه Choropleth که وقوع سرقت های غیر نفوذی را در منطقه مورد نظر نشان می دهد.
شکل ۶٫ ضرایب بر اساس زیرمنطقه تخمین زده شده. مناطق فرعی محدود شده با خطوط پررنگ به عنوان خوشه های تشکیل دهنده شناسایی می شوند.
شکل ۷٫ انحراف استاندارد ضرایب بر اساس زیرمنطقه تخمین زده شده.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما