توسعه خط لوله تجزیه و تحلیل داده های بزرگ برای داده های تلفن همراه با Mobipack و بهبود فضایی

داده های جمعیتی مکرر و دانه ای برای تصمیم گیری ضروری است. علاوه بر این، برای نظارت بر پیشرفت در جهت دستیابی به اهداف توسعه پایدار (SDGs)، در دسترس بودن داده ها در مقیاس جهانی و همچنین در سطوح مختلف تفکیک شده مورد نیاز است. پوشش جمعیتی بالای سیگنال‌های سلولی تلفن همراه، تولید داده‌های مکانی-زمانی در مقیاس بزرگ مانند داده‌های ضبط جزئیات تماس (CDR) را تسریع کرده است. این امر به کشورهای با منابع کمیاب امکان داده است تا ردپای دیجیتالی را در مقیاس ها و وضوح هایی که در غیر این صورت صرفاً از طریق نظرسنجی های سنتی غیرممکن بود، جمع آوری کنند. با این حال، استفاده از چنین داده هایی نیاز به فرآیندهای متعدد، الگوریتم ها و تلاش قابل توجهی دارد. این مقاله یک خط لوله تجزیه و تحلیل داده بزرگ را پیشنهاد می‌کند که منحصراً بر روی یک چارچوب منبع باز با کتابخانه بهبود فضایی ما و یک بسته تحلیل تحرک منبع باز پیشنهادی به نام Mobipack ساخته شده است. Mobipack از ماژول های مفید برای تجزیه و تحلیل تحرک، از جمله ناشناس سازی داده ها، استخراج مبدا-مقصد، استخراج سفر، تجزیه و تحلیل منطقه، درونیابی مسیر، و مجموعه ای از شاخص های تحرک تشکیل شده است. چندین مورد استفاده پیاده سازی شده برای نشان دادن مزایا و سودمندی سیستم پیشنهادی ارائه شده است. علاوه بر این، توضیح می‌دهیم که چگونه یک پلت‌فرم داده در مقیاس بزرگ که به تخصیص منابع کارآمد نیاز دارد، می‌تواند برای مدیریت داده‌ها و همچنین نحوه استفاده و نگهداری آن به شیوه‌ای پایدار ساخته شود. این پلتفرم می تواند به افزایش ظرفیت تجزیه و تحلیل داده های CDR کمک کند، که معمولا نیاز به یک مجموعه مهارت خاص دارد و اجرای آن از ابتدا زمان بر است. سیستم پیشنهادی برای پردازش پایه و مدیریت موثر داده های CDR مناسب است. بنابراین، این امکان را برای پشتیبانی بهتر و آماده سازی به موقع فراهم می کند.

کلید واژه ها:

داده های CDR ؛ تجزیه و تحلیل تحرک ؛ منبع باز ؛ کلان داده ؛ خط لوله داده

۱٫ مقدمه

داده های مکرر و دقیق در مورد جمعیت یک کشور برای تصمیم گیری آگاهانه ضروری است. علاوه بر این، نظارت بر پیشرفت در جهت دستیابی به اهداف توسعه پایدار (SDGs) در دسترس بودن داده ها در سطوح جهانی و تفکیک شده را ضروری می کند [ ۱ ]. نظرسنجی ها ابزارهای متعارفی برای جمع آوری اطلاعات در مورد ویژگی های جمعیت هستند و درک دقیق موقعیت آنها را تسهیل می کنند. با این حال، این داده ها به طور مکرر به روز نمی شوند زیرا این به زمان و منابع خاصی نیاز دارد. به ویژه در کشورهای در حال توسعه، کمبود داده های به روز یک چالش بزرگ به دلیل منابع محدود است [ ۲ ].
از سال ۲۰۱۹، بیش از نیمی از جمعیت جهان از خدمات تلفن همراه استفاده می کنند. علاوه بر این، سیگنال های تلفن همراه برای ۹۷ درصد از جمعیت جهان [ ۳ ] قابل دسترسی است، حتی کسانی که به زیرساخت های اولیه مانند آب و برق دسترسی ندارند. در این راستا، تلفن همراه یک پلت فرم فراگیر است که می تواند حتی به جمعیت هایی که اغلب در نظرسنجی های مرسوم نادیده گرفته می شوند، دسترسی پیدا کند، به عنوان مثال، کسانی که در مناطق دور افتاده زندگی می کنند یا بسیار متحرک هستند. پوشش جمعیتی بالای سیگنال‌های سلولی تلفن همراه، تولید داده‌های مکانی-زمانی در مقیاس بزرگ مانند داده‌های ضبط جزئیات تماس (CDR) را تسریع کرده است. این به کشورهای با منابع کمیاب امکان می‌دهد تا ردپای دیجیتال را در مقیاس‌ها و وضوح‌هایی جمع‌آوری کنند که با استفاده از نظرسنجی‌های سنتی قابل تحقق نیستند [ ۴ ]].
داده های CDR توسط اپراتور شبکه تلفن همراه (MNO) برای صورتحساب و نظارت بر شبکه جمع آوری می شود. این بدان معنی است که داده ها شامل همه مشترکین خدمات شبکه تلفن همراه می شود. یک CDR در هر رویداد در شبکه تلفن همراه ایجاد می شود، به عنوان مثال، یک تماس، سرویس پیام کوتاه (SMS) و ارتباطات داده. رکورد شامل زمان رویداد است که با اطلاعات مکان برج سلولی متصل در زمان رویداد مرتبط است [ ۵ ]]. در حالی که داده‌های CDR همه مشترکین خدمات شبکه تلفن همراه را پوشش می‌دهد، داده‌های GPS از تلفن همراه تنها با برخی از مشترکین مرتبط است. به طور خاص، داده‌های GPS را می‌توان از کاربران گوشی‌های هوشمند که مشترک خدمات خاصی هستند که از طریق برنامه‌های تلفن هوشمند ارائه می‌شوند، تنها زمانی که آن را فعال می‌کنند، جمع‌آوری کرد. این مطالعه بر روی استفاده از داده های CDR متمرکز شده است.
بینش های آماری تولید شده از داده های CDR می تواند الگوهای تحرک و توزیع مکانی-زمانی جمعیت های بزرگ را ارائه دهد [ ۶ ]. داده ها برای مدیریت بلایا، گردشگری، پاسخ به بحران های بهداشتی و برنامه ریزی حمل و نقل مفید هستند. آن‌ها می‌توانند ردپای دیجیتالی را در مقیاس‌ها و وضوح‌هایی ارائه دهند که با استفاده از نظرسنجی‌های سنتی قابل تحقق نیستند [ ۷ , ۸ , ۹ , ۱۰ , ۱۱]. با این حال، استفاده از داده های CDR نیاز به زمان، تلاش و هماهنگی قابل توجهی دارد. این شامل دسترسی به داده و یک چارچوب نهادی مانند مشارکت بین تولیدکننده داده و کاربران داده، اجماع در مورد استفاده از داده‌های CDR برای اهداف خط‌مشی، حفاظت از حریم خصوصی، و سیستم و روشی برای تولید خروجی‌های آماری با حفظ حریم خصوصی داده‌های ایمن است [ ۱۲ ، ۱۳ ]. این فرآیندها در صورتی که باید در زمان شروع یک فاجعه یا در سناریوهای اضطراری که در آن اطلاعاتی برای پشتیبانی از پاسخ‌های به موقع مورد نیاز است راه‌اندازی شوند، می‌توانند بار سنگینی باشند [ ۱۴ ].]. علاوه بر این، یک پلتفرم خاص و پردازش داده برای ایجاد بینش ارزشمند از داده‌های CDR مورد نیاز است. این شامل خرید سخت افزار، راه اندازی سیستم، توسعه الگوریتم، و شاخص های مناسب برای اهداف خاص است. اینها می توانند به ظرفیت خاص و زمان زیادی برای پیاده سازی از ابتدا نیاز داشته باشند. علاوه بر این، عدم استانداردسازی و اجماع در مورد ساختار داده ها و پلت فرم برای این فرآیندها وجود دارد. این استفاده از داده های CDR را محدود می کند، به ویژه در مقیاس های گسترده تر مانند مقایسه نتایج در میان اپراتورهای تلفن همراه یا سایر کشورها [ ۱۳ ].
از این رو، نیاز به یک پلت فرم جامع، یعنی یک خط لوله تجزیه و تحلیل داده های بزرگ وجود دارد که می تواند به پردازش داده های CDR برای تولید بینش های عملی کمک کند. چندین ابزار منبع باز مانند FlowKit by Flowminder [ ۱۵ ] و داده های تحرک COVID-19 توسط گروه ویژه تحرک COVID-19 بانک جهانی [ ۱۶ ] وجود دارد. با این حال، آنها به اشتراک های تجاری برای پیاده سازی تجزیه و تحلیل با استفاده از ابزارهای منبع باز در مجموعه داده های بزرگ مقیاس نیاز دارند. با توجه به محدودیت ظرفیت فنی و منابع مالی برای استفاده از منابع جدید داده در کشورهای در حال توسعه، پایداری در استفاده و نگهداری از سیستم حائز اهمیت است.
این مقاله یک خط لوله تجزیه و تحلیل داده با یک بسته منبع باز برای تجزیه و تحلیل داده های CDR پیشنهاد می کند. خط لوله شامل ارائه دهنده داده، مدیریت داده در مقیاس بزرگ و به اشتراک گذاری داده است. اکوسیستم Apache Hadoop و کتابخانه ارتقای فضایی ما به عنوان زیرساخت پایه برای مدیریت حجم داده های بزرگ، پردازش با سرعت بالا و داده های مکانی-زمانی درگیر استفاده می شود. علاوه بر این، بسته تحلیل تحرک Mobipack را توسعه می‌دهیم که از ماژول‌های تحلیل تحرک مفید، از جمله ناشناس‌سازی داده‌ها، وارد کردن داده‌ها، تمیز کردن داده‌ها، تبدیل داده‌ها، استخراج سفر، استخراج مبدا-مقصد، تجزیه و تحلیل منطقه، درونیابی مسیر و مجموعه‌ای از شاخص های تحرک با این بسته، سیستم نیاز به توابع از داده های خام تا محصول نهایی برای تجزیه و تحلیل CDR را برآورده می کند. علاوه بر این، ما برآوردی از سخت افزار و نرم افزار مورد نیاز برای راه اندازی خط لوله داده ارائه می دهیم و نتایج ارزیابی عملکرد را ارائه می دهیم. در نهایت، موارد استفاده واقعی اجرا شده ارائه شده است که مزایا و کاربرد سیستم پیشنهادی را نشان می‌دهد. به عنوان مدرک، سیستم ما در کشورهای مختلف از جمله موزامبیک، گینه، آنگولا، رواندا و گامبیا اجرا شده است. در نهایت، سیستم پیشنهادی ما می‌تواند به‌عنوان یک پلتفرم پایه برای تحلیل تحرک CDR مورد استفاده قرار گیرد. هدف این مقاله با معرفی پلتفرم پیشنهادی به سوالات زیر است: سیستم ما در کشورهای مختلف از جمله موزامبیک، گینه، آنگولا، رواندا و گامبیا پیاده سازی شده است. در نهایت، سیستم پیشنهادی ما می‌تواند به‌عنوان یک پلتفرم پایه برای تحلیل تحرک CDR مورد استفاده قرار گیرد. هدف این مقاله با معرفی پلتفرم پیشنهادی به سوالات زیر است: سیستم ما در کشورهای مختلف از جمله موزامبیک، گینه، آنگولا، رواندا و گامبیا پیاده سازی شده است. در نهایت، سیستم پیشنهادی ما می‌تواند به‌عنوان یک پلتفرم پایه برای تحلیل تحرک CDR مورد استفاده قرار گیرد. هدف این مقاله با معرفی پلتفرم پیشنهادی به سوالات زیر است:
  • با توجه به اینکه جمع آوری داده های به روز در مورد جمعیت ها در کشورهای در حال توسعه یک چالش است، چگونه می توان یک پلت فرم داده در مقیاس بزرگ که به تخصیص منابع کارآمد برای مدیریت داده ها نیاز دارد، ساخته و همچنین به شیوه ای پایدار از آن استفاده و نگهداری کرد؟
  • اگر بخواهیم از ابتدا در جایی که منابع انسانی محدود است شروع کنیم، چگونه می‌توانیم به افزایش ظرفیت تجزیه و تحلیل داده‌های CDR کمک کنیم، که به مجموعه مهارت خاصی نیاز دارد و اجرای آن زمان بر است؟
ساختار باقی مانده این مقاله به شرح زیر است. بخش ۲ ویژگی های داده های CDR را توضیح می دهد که به روش جمع آوری داده ها مربوط می شود. مزیت و چالش داده های CDR را برجسته می کند، که ممکن است نیاز به تفسیر دقیق اطلاعات آماری تولید شده از داده های CDR داشته باشد. بخش ۳ مفاهیم اساسی و کارهای مرتبط انجام شده برای توسعه خطوط لوله داده، پلت فرم های کلان داده و ابزارهای تحلیلی منبع باز موجود را ارائه می دهد. بخش ۴ مواد و روش های خط لوله مورد نظر، از جمله الزامات آن را معرفی می کند. بخش ۵ نتایج و بحث در مورد پلت فرم پیشنهادی را خلاصه می کند و پس از آن نتیجه گیری می شود.

۲٫ داده های ضبط جزئیات تماس (CDR).

این بخش ویژگی های داده های CDR را توضیح می دهد که با نحوه جمع آوری داده ها مرتبط است. این به درک مزایا و چالش های داده های CDR کمک می کند، که ممکن است نیاز به تفسیر دقیق اطلاعات آماری تولید شده از داده های CDR داشته باشد.

۲٫۱٫ اجزای داده

داده های CDR شامل چندین متغیر مرتبط با رویدادهای شبکه های تلفن همراه است. سه مولفه کلیدی در درک الگوهای تحرک وجود دارد: شناسه، مهر زمانی و مکان برج سلولی. چندین متغیر را می توان به عنوان شناسه استفاده کرد: هویت بین المللی تجهیزات تلفن همراه (IMEI)، هویت مشترک بین المللی تلفن همراه (IMSI) و شماره فهرست مشترک بین المللی ایستگاه تلفن همراه (MSISDN). IMEI به عنوان یک متغیر برای تعریف تعداد دستگاه ها استفاده می شود. IMSI تعداد کارت های ماژول هویت مشترک (SIM) را تعریف می کند که می تواند به عنوان تعداد اشتراک در نظر گرفته شود. MSISDN به شماره تلفن ها اشاره دارد و برای نشان دادن Anumber و Bnumber استفاده می شود. Anumber اصطلاحی است که برای نشان دادن شماره تلفنی که رویداد شبکه از آن آغاز می شود استفاده می شود و Bnumber مقصد آن را نشان می دهد. همه این متغیرها قبل از استفاده از داده ها برای تجزیه و تحلیل توسط MNO شناسایی می شوند. مهر زمان زمانی را نشان می دهد که یک رویداد شبکه آغاز می شود، به عنوان مثال، زمانی که یک تماس تلفنی شروع می شود یا یک پیام متنی ارسال می شود. در داده های CDR، مکان برج سلولی به عنوان شناسه برج سلولی درج می شود. هنگامی که یک برج سلولی با بیش از یک آنتن مرتبط باشد، یک شناسه منحصر به فرد به آنتن اختصاص داده می شود. مختصات جغرافیایی معمولاً در یک پایگاه داده جداگانه ذخیره می شوند و با همان مجموعه ای از شناسه های مورد استفاده در داده های CDR مرتبط می شوند. MNO مربوطه باید این داده برج سلولی را با داده های CDR ارائه دهد. دو پایگاه داده با استفاده از شناسه به عنوان کلیدی برای ارجاع جغرافیایی داده های CDR به هم مرتبط هستند. مهر زمان زمانی را نشان می دهد که یک رویداد شبکه آغاز می شود، به عنوان مثال، زمانی که یک تماس تلفنی شروع می شود یا یک پیام متنی ارسال می شود. در داده های CDR، مکان برج سلولی به عنوان شناسه برج سلولی درج می شود. هنگامی که یک برج سلولی با بیش از یک آنتن مرتبط باشد، یک شناسه منحصر به فرد به آنتن اختصاص داده می شود. مختصات جغرافیایی معمولاً در یک پایگاه داده جداگانه ذخیره می شوند و با همان مجموعه ای از شناسه های مورد استفاده در داده های CDR مرتبط می شوند. MNO مربوطه باید این داده برج سلولی را با داده های CDR ارائه دهد. دو پایگاه داده با استفاده از شناسه به عنوان کلیدی برای ارجاع جغرافیایی داده های CDR به هم مرتبط هستند. مهر زمان زمانی را نشان می دهد که یک رویداد شبکه آغاز می شود، به عنوان مثال، زمانی که یک تماس تلفنی شروع می شود یا یک پیام متنی ارسال می شود. در داده های CDR، مکان برج سلولی به عنوان شناسه برج سلولی درج می شود. هنگامی که یک برج سلولی با بیش از یک آنتن مرتبط باشد، یک شناسه منحصر به فرد به آنتن اختصاص داده می شود. مختصات جغرافیایی معمولاً در یک پایگاه داده جداگانه ذخیره می شوند و با همان مجموعه ای از شناسه های مورد استفاده در داده های CDR مرتبط می شوند. MNO مربوطه باید این داده برج سلولی را با داده های CDR ارائه دهد. دو پایگاه داده با استفاده از شناسه به عنوان کلیدی برای ارجاع جغرافیایی داده های CDR به هم مرتبط هستند. هنگامی که یک برج سلولی با بیش از یک آنتن مرتبط باشد، یک شناسه منحصر به فرد به آنتن اختصاص داده می شود. مختصات جغرافیایی معمولاً در یک پایگاه داده جداگانه ذخیره می شوند و با همان مجموعه ای از شناسه های مورد استفاده در داده های CDR مرتبط می شوند. MNO مربوطه باید این داده برج سلولی را با داده های CDR ارائه دهد. دو پایگاه داده با استفاده از شناسه به عنوان کلیدی برای ارجاع جغرافیایی داده های CDR به هم مرتبط هستند. هنگامی که یک برج سلولی با بیش از یک آنتن مرتبط باشد، یک شناسه منحصر به فرد به آنتن اختصاص داده می شود. مختصات جغرافیایی معمولاً در یک پایگاه داده جداگانه ذخیره می شوند و با همان مجموعه ای از شناسه های مورد استفاده در داده های CDR مرتبط می شوند. MNO مربوطه باید این داده برج سلولی را با داده های CDR ارائه دهد. دو پایگاه داده با استفاده از شناسه به عنوان کلیدی برای ارجاع جغرافیایی داده های CDR به هم مرتبط هستند.

۲٫۲٫ نمایندگی داده ها

CDR تنها زمانی ایجاد می شود که از تلفن همراه استفاده شود. این به این معنی است که آنچه از داده های CDR مشاهده می شود نشان دهنده افرادی نیست که از تلفن همراه استفاده نمی کنند. این باعث سوگیری هایی می شود که می تواند بر بازنمایی داده های CDR تأثیر بگذارد. سوگیری انتخاب به این دلیل رخ می دهد که داده های CDR فقط شامل کاربران تلفن همراه می شود. مالکیت تلفن به گروه های اجتماعی-اقتصادی خاصی منحرف شده است. به عنوان مثال، کمتر احتمال دارد که افراد مسن و خردسال نماینده باشند، در حالی که سوگیری نسبت به مردان و گروه های با درآمد بالاتر وجود دارد [ ۱۷ ]. سوگیری اندازه‌گیری به این دلیل اتفاق می‌افتد که یک CDR تنها زمانی ایجاد می‌شود که از تلفن استفاده می‌شود. بنابراین، بینش های تولید شده از داده ها را می توان تحت تأثیر فراوانی رکوردها قرار داد [ ۱۸]. به عنوان مثال، دستیابی به حرکات دقیق کاربرانی که به طور مکرر از تلفن خود استفاده نمی کنند دشوار است [ ۱۹ ]. یک سوگیری مشابه ممکن است زمانی رخ دهد که تجزیه و تحلیل برای یک نمونه فرعی از داده‌های CDR پس از فیلتر کردن آنهایی که تعداد رکوردهای کمی دارند [ ۲۰ ] انجام شود.

۲٫۳٫ دانه بندی فضایی

دانه بندی فضایی داده های CDR به تراکم برج های سلولی بستگی دارد که به طور کلی با تراکم جمعیت همبستگی دارد [ ۲۱ ]]. تراکم برج های سلولی در مناطق شهری بیشتر و در مناطق روستایی کمتر است. به عنوان مثال، در یک منطقه شهری، اگر مرکز شهر باشد، فاصله بین دو برج سلولی همسایه می تواند کمتر از ۱۰ متر باشد. در یک منطقه روستایی، فاصله می تواند چندین کیلومتر باشد. این تفاوت بر ظرفیت جذب تحرک در مناطق روستایی تأثیر می گذارد. تحرک افراد در یک منطقه تحت پوشش یک برج سلولی را می توان ثابت مشاهده کرد زیرا هر رویداد شبکه در آن منطقه با همان برج سلولی مرتبط است. علاوه بر این، هنگامی که بر اساس جریان بین برج های سلولی محاسبه می شود، منجر به تخمین بیش از حد مسافت سفر می شود. هنگامی که افراد از مرزهای دو برج سلولی دورتر عبور می کنند، مسافت طی شده از منطقه ای که یک برج سلولی را پوشش می دهد تا منطقه ای که توسط دیگری پوشیده شده است به عنوان فاصله بین دو برج سلولی محاسبه می شود.

۲٫۴٫ فرکانس داده ها

داده های CDR متناوب هستند زیرا تنها زمانی که از تلفن های همراه استفاده می شود تولید می شوند. علاوه بر این، داده ها به اندازه داده های GPS که در یک بازه زمانی ثابت تولید می شوند، اغلب تولید نمی شوند. این می‌تواند گستره تحلیلی را که می‌توان با استفاده از داده‌های CDR انجام داد، به ویژه زمانی که دوره مطالعه کوتاه است، محدود کند. به عنوان مثال، بررسی رفتار سفر در طول یک روز به تعداد معینی از نقاط داده نیاز دارد که امکان تخمین مبدا و مقصد سفر در آن روز را فراهم می کند. رفتار سفری که می‌توان از داده‌ها مشاهده کرد، با مکان‌های نشان‌داده‌شده توسط نقاط داده مرتبط است، در حالی که نقاط داده ممکن است لزوماً نشان‌دهنده نقطه زمان عزیمت از مبدا سفر و زمان رسیدن به مقصد سفر نباشند. این بدان معناست که رفتار سفری که می‌توان از داده‌ها مشاهده کرد، تنها بر اساس مکان‌های مشاهده شده در داده‌های CDR است. هنگامی که داده ها برای تجزیه و تحلیل طولانی مدت استفاده می شوند، می توان این تأثیر را کاهش داد. برای مثال، جابجایی طولانی‌مدت را می‌توان با جمع‌آوری مکان‌های مشاهده شده مکرر در یک دوره زمانی معین تخمین زد.۲۲ ].

۳٫ مفاهیم و کارهای مرتبط

این بخش مفاهیم اساسی و کارهای مرتبط انجام شده بر روی خطوط لوله داده، پلتفرم های کلان داده و ابزارهای تحلیلی منبع باز موجود را ارائه می دهد.

۳٫۱٫ خط لوله داده

دریافت داده ها و خطوط لوله جنبه های اساسی سازمان ها و انجمن هایی هستند که مقادیر قابل توجهی از اطلاعات را جمع آوری و مرتب می کنند. برای تطبیق انتقال سریع داده های بزرگ، یک خط لوله باید امکان جذب مداوم، تجزیه و تحلیل و ذخیره سازی اطلاعات را فراهم کند. توسعه پایه ای برای دریافت جریان های اطلاعاتی بسیار متنوع، چند منبعی، پرسرعت و ناهمگن شامل بررسی کامل ایجاد و گسترش این موج های اطلاعاتی است. علاوه بر این، یک چارچوب خط لوله باید سازگار، قدرتمند و قابل گسترش باشد تا از جریان های اطلاعاتی بین سازندگان و مشتریان متعدد پشتیبانی کند [ ۲۳ ]. در [ ۲۴]، اجزای حیاتی چنین خط لوله ای ارائه شده است. آنها شامل جمع آوری داده ها، ادغام و استخراج داده ها، توزیع و تجزیه و تحلیل هستند.
در حال حاضر ابزارهای مختلفی مانند Apache NiFi، Apache Airflow و AWS Glue برای جمع آوری داده ها استفاده می شود. این ابزارها به طور کلی شامل اجزای استاندارد، از جمله راه اندازی و اجرای خودکار جریان های داده محاسباتی، با قابلیت استفاده مجدد از فایل های اجرایی هماهنگ تحت شرایط معین و سناریوهای زمان اجرا هستند. علاوه بر این، آنها دسترسی به یک رابط وب ساده را برای ساخت، کار و نظارت بر موقعیت ها فراهم می کنند. در این مطالعه، ما از Apache NiFi استفاده کردیم که یک ابزار منبع باز برای خودکارسازی و مدیریت جریان اطلاعات بین سیستم‌های مختلف است. این یک فرآیند جریان داده قابل تنظیم و سازگار برای اصلاح اطلاعات در زمان اجرا از طریق رابط کاربر وب ارائه می کند. لیو و همکاران [ ۲۵] یک چارچوب عمومی و بسیار مقیاس‌پذیر برای اتوماسیون و اجرای پردازش داده‌های علمی و گردش‌های کاری شبیه‌سازی، به منظور مکانیزه کردن شروع، همگام‌سازی و اجرای مدیریت اطلاعات منطقی ارائه کرد. چارچوب آنها از Apache Kafka برای مکاتبات بین ماژول ها و Apache Nifi برای ساخت گردش کار شبیه سازی و مدیریت اطلاعات استفاده می کند.
برای خط لوله داده، کار مروری توسط Sebei و همکاران. [ ۲۶ ] در خطوط لوله داده‌های بزرگ برای تجزیه و تحلیل رسانه‌های اجتماعی، شش مرحله متمایز برای پردازش کلان داده را خلاصه می‌کند: جمع‌آوری داده، ثبت داده، پیش‌پردازش داده‌ها با تمیز کردن، پردازش داده‌ها با یکپارچه‌سازی، تجزیه و تحلیل داده‌ها با یک مدل تحلیلی، و تفسیر داده‌ها با تجسم . چارچوب Hadoop زیرساخت اصلی مورد استفاده برای پشتیبانی از داده های بزرگ است. پاکسازی داده ها در مرحله پیش پردازش نیز به عنوان یک چالش بزرگ در توسعه خطوط لوله داده شناسایی شده است [ ۲۷ ]]. معمولاً شامل بررسی تکراری بودن، مقادیر ناسازگار، داده های از دست رفته، داده های ادغام شده و تبدیل قالب می شود. امیدوار-تهران و عامر یحیی جنبه های مختلفی را که برای ارزیابی خط لوله مورد استفاده قرار می گیرد، از جمله عملکرد از نظر زمان اجرا، مقیاس پذیری و اثربخشی خروجی ارائه کردند [ ۲۸ ]. در [ ۲۹ ، ۳۰ ]، اندازه های مختلف داده و تعداد وظایف همزمان و تکالیف برای ارزیابی عملکرد اجرا و مقیاس پذیری استفاده می شود. برای شرایط اضطراری ناگهانی مانند اپیدمی ها یا بلایای طبیعی، نیاز به یک سیستم استاندارد وجود دارد که بتواند به داده های تلفن همراه انباشته شده ناشناس در سراسر کشورها دسترسی داشته باشد و از آنها استفاده کند [ ۱۳ ].]. کار ما یک خط لوله تجزیه و تحلیل پایه برای تجزیه و تحلیل داده های CDR ارائه می دهد که شامل یک چارچوب نرم افزاری کاملاً منبع باز است و همچنین همه برنامه ها و دستورالعمل های دقیق لازم برای پیاده سازی و تجزیه و تحلیل را ارائه می دهد. این در تضاد با سایر مطالعاتی است که فقط بر روی الگوریتم ها تمرکز می کنند و هیچ سیستم عملی و موارد استفاده را برای پیاده سازی واقعی ارائه نمی دهند.

۳٫۲٫ بستر داده در مقیاس بزرگ

تجزیه و تحلیل تحرک عموماً به داده هایی نیاز دارد که در طولانی مدت مانند ماه ها، فصل ها و سال ها جمع آوری شوند. اندازه داده بسیار مهم است، زیرا ممکن است از مقیاس ترابایت فراتر رود. برای این مورد نمی توان از توان محاسباتی سنتی استفاده کرد. بنابراین، یک پلت فرم پردازش در مقیاس بزرگ برای چنین داده های بزرگ با نرخ رشد قابل توجهی بالا مورد نیاز است. این ویژگی‌های مقیاس‌پذیری را تضمین می‌کند که قابلیت ذخیره‌سازی قابل ارتقا و پردازش با سرعت بالا را دارند. آپاچی هادوپ و اسپارک نمونه های معمولی از چنین پلتفرم های کلان داده هستند. یانگ و همکاران یک پلت فرم برای حفظ حریم خصوصی مسیر کاربر در حالی که الگوهای تحرک کاربر را با استفاده از Spark و Hadoop برای پشتیبانی از مجموعه داده های در مقیاس بزرگ حفظ می کند [ ۳۱]. عبدالله و همکاران از مجموعه داده تلفن همراه برای کنترل شیوع COVID-19 استفاده کرد. آنها از Spark با GPU فعال به عنوان زیرساخت پایه برای مدیریت بیش از ۱۰۰ میلیون نقطه در روز استفاده کردند [ ۳۲ ]. کوین و همکاران از تجزیه و تحلیل داده های بزرگ برای نظارت بر جریان گردشگر استفاده کرد. آنها از Spark با رابط Spark SQL برای اطمینان از پشتیبانی در مقیاس بزرگ استفاده کردند [ ۳۳ ]. با این حال، آنها هیچ اطلاعات ارزیابی صریحی در مورد عملکرد پلت فرم یا چگونگی مقیاس آن در طول زمان ارائه نمی دهند.
نووویچ و همکاران از Hive و Spark با زبان Scala در اکوسیستم Hadoop برای شناسایی رابطه بین اتصال انسان و استفاده از زمین استفاده کرد [ ۳۴ ]. آنها از پایگاه داده Hive برای ذخیره داده ها استفاده کردند و پردازش را از طریق رابط Spark انجام دادند. با این حال، هیچ اطلاعات عملکرد یا اندازه داده ارائه نشده است. اطلاعات CDR همچنین برای غربالگری و کنترل بیماری های همه گیر، به عنوان مثال، ابولا، با ارزیابی جهت های انسانی و تخصیص فضایی-زمانی جمعیت استفاده شده است [ ۳۵ ]]. برای پردازش اطلاعات با اندازه بزرگ، از چارچوب Apache Hadoop استفاده شد و Hive به عنوان ابزار پردازش اولیه استفاده شد. در عمل، اکوسیستم Hadoop را می توان با استفاده از Apache Ambari، یک ابزار مدیریت مبتنی بر وب برای خوشه های Hadoop که شامل سرویس های پایه مانند HDFS، YARN، MapReduce و Zookeeper است، نصب کرد. Spark و Hive همچنین می توانند به عنوان خدمات اختیاری برای پردازش نصب شوند.
داده‌های CDR داده‌های مکانی-زمانی هستند، که برای تجزیه و تحلیل آنها عمدتاً نیاز به کار با داده‌های مکان و عملکردهای مرتبط با فضایی مانند مکان‌یابی نقاط در مرزهای اداری یا تعیین فاصله بین نقاط است. شانگگوان و همکاران [ ۳۶ ] روشی را برای پردازش داده های فضایی بزرگ پیشنهاد کرد که از Apache Spark و HBase برای انباشتن، نظارت، ثبت و تأیید مقدار قابل توجهی از اطلاعات مکانی در خوشه مناسب استفاده می کند. به طور خاص، اطلاعات مکانی توسط Apache Spark با استفاده از SparkSpatialSDK مدیریت می شود. در کار قبلی، ما یک کتابخانه مرتبط با فضایی برای بهبود عملکردهای فضایی در پلت فرم Hadoop، به طور خاص، در Hive [ ۳۷ ] توسعه دادیم.]. برای یک روز داده – تقریباً ۲۲ میلیون رکورد – وظیفه نقشه برداری مکان در یک دقیقه با ۲۲ کار Hive در مقایسه با پایگاه داده داده های جمع آوری شده بیش از ۱۲۰۰ دقیقه تکمیل شد. ما کتابخانه ارتقای فضایی خود را نیز در خط لوله قرار دادیم.

۳٫۲٫۱٫ آپاچی هادوپ

با توجه به اینکه داده‌های CDR از مجموعه‌های داده با اندازه بزرگ تشکیل شده‌اند که سیستم‌های رایانه‌ای یا پایگاه‌های داده معمولی نمی‌توانند آن‌ها را در یک بازه زمانی قابل قبول پردازش کنند، سیستم Apache Hadoop به عنوان سیستم پردازش داده اولیه در این مطالعه استفاده شد. آپاچی هادوپ [ ۳۸] یک چارچوب نرم افزاری رایانش ابری منبع باز برای برنامه های کاربردی داده فشرده و توزیع شده است. سرویس ها و فریم ورک های مختلفی در بسته ابزار Apache Hadoop وجود دارد. با این حال، ما در این مطالعه بر روی سیستم فایل توزیع شده Apache Hadoop (HDFS) و Hive تمرکز کردیم. برای راه اندازی و استفاده از Apache Hadoop در حالت عملیات کامل، اجرای پنج جزء به نام های NameNode، DataNodes، Secondary NameNode، JobTracker و TaskTrackers مورد نیاز است. NameNode دفتردار HDFS است که نحوه مرتب‌سازی فایل‌ها به بلوک‌های فایل، گره‌هایی که بلوک‌ها را ذخیره می‌کنند و سلامت کلی سیستم فایل توزیع شده را ثبت می‌کند. DataNodes عملکردهای سیستم فایل را انجام می دهد. آنها بلوک ها را در صورت دستور ذخیره و بازیابی می کنند و گزارش های دوره ای را با لیستی از بلوک های ذخیره شده به NameNode تحویل می دهند. JobTracker رابط بین برنامه و Apache Hadoop است. هنگامی که کد به یک خوشه ارسال می شود، JobTracker با تعیین اینکه کدام فایل ها را پردازش کند، تخصیص گره ها به وظایف مختلف و نظارت بر تمام وظایف در حال اجرا، برنامه اجرا را تعیین می کند. TaskTracker وظایف فردی را که JobTracker اختصاص می دهد را اجرا می کند و اجرای وظایف فردی را در هر گره برده مدیریت می کند. برای تولید، توصیه می شود برنامه را با حداقل چهار ماشین اجرا کنید، شامل یک گره اصلی و سه گره slave با تکرار دو. TaskTracker وظایف فردی را که JobTracker اختصاص می دهد را اجرا می کند و اجرای وظایف فردی را در هر گره برده مدیریت می کند. برای تولید، توصیه می شود برنامه را با حداقل چهار ماشین اجرا کنید، شامل یک گره اصلی و سه گره slave با تکرار دو. TaskTracker وظایف فردی را که JobTracker اختصاص می دهد را اجرا می کند و اجرای وظایف فردی را در هر گره برده مدیریت می کند. برای تولید، توصیه می شود برنامه را با حداقل چهار ماشین اجرا کنید، شامل یک گره اصلی و سه گره slave با تکرار دو.
۳٫۲٫۲٫ Apache Spark و Databricks
آپاچی اسپارک [ ۳۹] یک چارچوب پردازش ترکیبی بر اساس اصولی مشابه اصول موتور MapReduce است که هدف اصلی آن بهینه‌سازی با افزایش سرعت بارهای پردازش دسته‌ای توسط کل محاسبات درون حافظه است. Apache Spark در مرحله اولیه با لایه ذخیره سازی تعامل می کند تا داده ها را در حافظه بارگذاری کند و نتیجه نهایی را در پایان فرآیند حفظ کند. متفاوت از Apache MapReduce، در Apache Spark، تمام نتایج پردازش و میانی انجام شده و در حافظه ذخیره می شود. Databricks توسط سازندگان Apache Spark تاسیس شد و یک پلتفرم یکپارچه برای بهبود بهره وری برای مهندسان داده، دانشمندان داده و تحلیلگران کسب و کار فراهم می کند. به طور خاص، پلتفرم Databricks یک تجربه نوت بوک آماده برای استفاده تعاملی و مشارکتی را فراهم می کند. به دلیل بهینه سازی زمان اجرا Apache Spark، اغلب از دیگر پلتفرم‌های کلان داده‌های ساختار یافته زبان پرس و جو (SQL) در فضای ابری بهتر عمل می‌کند. مقایسه ویژگی ها بین آپاچی هادوپ و آپاچی اسپارک در خلاصه شده استجدول ۱ . Spark، Hadoop و Hive معمولاً در یک محیط اجرا می شوند. در حالی که Hadoop به عنوان زیرساخت پایه استفاده می شود، کاربران می توانند از Spark یا Hive برای پردازش و تجزیه و تحلیل استفاده کنند.

۳٫۳٫ ابزارهای تحلیلی منبع باز موجود

۳٫۳٫۱٫ شاخص تحرک COVID-19 WB

WB COVID-19 Mobility Indicator یک پروژه منبع باز است که توسط گروه ویژه تحرک COVID-19 بانک جهانی [ ۱۵ ] آغاز شده است. هدف حمایت از کشورهای فقیر از نظر داده با تجزیه و تحلیل تحرک، اطلاع رسانی سیاست های کاهش برای جلوگیری از گسترش COVID-19 است. یک کد برای سه کار سطح بالا در این مخزن وجود دارد، یعنی cdr-aggregation، data-checks و dashboard-dataviz. علاوه بر این، کد مجموعه ای از شاخص ها مانند تعداد مشترکین منحصر به فرد، نسبت ساکنان، ماتریس مبدا-مقصد و میانگین/انحراف استاندارد مسافت طی شده را تولید می کند. نرم افزار در محیط پایگاه داده اجرا می شود.
۳٫۳٫۲٫ FlowKit
FlowKit [ ۱۵ ] یک مجموعه منبع باز از ابزارهای نرم افزاری است که توسط بنیاد Flowminder برای پشتیبانی از تجزیه و تحلیل داده های تلفن همراه برای تلاش های بشردوستانه و توسعه توسعه یافته است. از یک جعبه ابزار تحلیلی که برای موارد استفاده توسعه یافته است پشتیبانی می کند. علاوه بر این، شامل ابزارهای تضمین کیفیت داده است که کارایی تجزیه و تحلیل را بیشتر افزایش می دهد. FlowKit از تحلیل توزیع‌ها، ویژگی‌ها و پویایی جمعیت‌های انسانی پشتیبانی می‌کند. برای داده های بزرگ مقیاس، اجرای نرم افزار در محیط های Databricks یا Apache Spark انجام می شود.

۴٫ مواد و روش ها

۴٫۱٫ الزامات کلیدی

برای اطمینان از تجزیه و تحلیل داده های CDR در مقیاس بزرگ به روشی پایدار و قابل تکرار، الزامات زیر کلیدی است.
  • خط لوله داده شامل جمع آوری داده، ثبت داده، پیش پردازش داده با تمیز کردن، پردازش داده با یکپارچه سازی، تجزیه و تحلیل داده ها با یک مدل تحلیلی و تفسیر داده با تجسم [ ۲۶ ] است.
  • الزامات داده‌ها و قالب‌های داده به وضوح تعریف شده‌اند تا از یک سیستم استاندارد که می‌تواند توسط هر کشوری تکرار شود و بر مبنای عملیاتی اجرا شود، اطمینان حاصل شود [ ۱۳ ].
  • جزئیات سخت افزار و مشخصات نرم افزاری توصیه شده ارائه شده است [ ۱۳ ].
  • یک پلت فرم در مقیاس بزرگ که بتواند مجموعه داده های عظیمی را با پشتیبانی از مقیاس پذیری و حداقل تلاش برای مقیاس پذیری در خود جای دهد، ضروری است.
  • این سیستم همه فرآیندها را پوشش می‌دهد، از داده‌های خام گرفته تا خروجی شاخص‌هایی که می‌توانند توسط سایر گروه‌ها/دامنه‌های تحقیقاتی مورد استفاده قرار گیرند [ ۱۲ ].
  • این سیستم شامل نرم‌افزار تحلیلی با الگوریتم‌هایی است که آماده استفاده هستند و می‌توانند روی پلتفرم‌های مقیاس بزرگ با پردازش موازی اجرا شوند تا زمان پردازش در مجموعه‌های داده عظیم را به حداقل برسانند.
  • این سیستم مقرون به صرفه است و به هیچ مجوزی برای فعال کردن قابلیت تجزیه و تحلیل CDR در کشورهای در حال توسعه نیاز ندارد [ ۱۳ ].
  • این سیستم از عملیات مربوط به فضایی مانند یافتن فواصل بین مختصات یا شناسایی مرزهایی که نقاط روی آنها قرار دارند پشتیبانی می کند. این نوع توابع معمولاً در تحلیل‌ها استفاده می‌شوند [ ۳۷ ].
ما خط لوله خود را برای برآوردن الزامات فوق طراحی و توسعه دادیم. جزئیات در بخش های بعدی ارائه شده است.

۴٫۲٫ مروری بر خط لوله تجزیه و تحلیل داده ها

خط لوله از سه طرف اصلی تشکیل شده است: ارائه دهندگان داده، شرکای تجزیه و تحلیل داده ها و کاربران داده. ارائه دهندگان داده معمولا اپراتورهای شبکه تلفن همراه (MNO) یا تنظیم کننده های مخابراتی هستند. شریک تجزیه و تحلیل داده ها به مقررات خاص کشور وابسته است. در اغلب موارد، شریک تجزیه و تحلیل داده ها یک تنظیم کننده یا مؤسسات مخابراتی است که بر اساس قوانین و مقررات کشور مجاز به دسترسی به داده ها هستند. علاوه بر این، استفاده از داده ها در خارج از کشور ممنوع است. در نهایت، کاربر داده از خروجی یک حوزه خاص مانند حمل و نقل، فاجعه و سلامت، تجزیه و تحلیل بیشتری را انجام می دهد. شکل ۱ ساختار کلی خط لوله را نشان می دهد.
این خط لوله از ارائه دهندگان داده، که عموما MNO یا تنظیم کننده مخابرات هستند، گسترش می یابد. ارائه دهندگان داده ها داده ها را مطابق مشخصات آماده می کنند و در یک فایل روزانه با فرمت مقادیر جدا شده با کاما (CSV) نگهداری می کنند. با توجه به اینکه داده‌های CDR حاوی داده‌های حریم خصوصی هستند، آنها تحت یک فرآیند ناشناس‌سازی قرار می‌گیرند که از یک الگوریتم رمزگذاری برای هش کردن ویژگی‌های قابل شناسایی در داده‌ها، مانند IMEI و IMSI استفاده می‌کند. پس از آن، داده های ناشناس از طریق یک کانال امن به پروتکل انتقال فایل امن (FTP) بر اساس فرض شریک تجزیه و تحلیل داده ها منتقل می شوند. Apache Nifi، که یک ابزار گردش کار خودکار است، سپس وظیفه وارد کردن داده‌های جدید را به خوشه داده‌های بزرگ و به دنبال آن یک اسکریپت مبتنی بر نرم‌افزار Mobipack برای پیش‌پردازش، محاسبه آمار داده‌ها، تجزیه و تحلیل، اجرا می‌کند. و محاسبه شاخص های هدف. خروجی در یک جدول Hive ذخیره می شود و به فایل های CSV صادر می شود. در نهایت، Apache Sqoop که یک ابزار انتقال کارآمد است، می تواند داده های خروجی را برای تحلیل و تجسم بیشتر به پایگاه داده رابطه ای انتقال دهد.
اطلاعات دقیق در مورد Mobipack و ابتکار ما به صورت آنلاین در https://sdc.csis.u-tokyo.ac.jp موجود است . نرم افزار، کد منبع و راهنما به صورت آنلاین در https://github.com/SpatialDataCommons موجود است.
شکل ۲ جریان تجزیه و تحلیل داده های CDR توسط Mobipack را نشان می دهد. داده‌های خام CDR باید توسط ارائه‌دهنده داده نام مستعار داده شوند، به طوری که داده‌های مورد استفاده برای تجزیه و تحلیل حاوی اطلاعات قابل شناسایی جداگانه نباشند. سپس داده ها به خوشه داده های بزرگ (Apache Hadoop) وارد می شوند و پیش پردازش انجام می شود. Apache Hadoop داده های گم شده و نادرست را بررسی می کند، قالب داده ها را تبدیل می کند و داده ها را برای مناطق هدف خاص فیلتر می کند. پس از آن، آمارهای اساسی داده ها، مانند تعداد کل رکوردها و تعداد کل مشترکین روزانه را محاسبه می کند. سپس ماژول تجزیه و تحلیل خاص اجرا می شود، مانند برآورد جمعیت برای منطقه اداری خاص، تخمین مبدا-مقصد، درونیابی مسیر، و شاخص های تحرک.

۴٫۳٫ خوشه کلان داده

داده‌های CDR مجموعه داده‌هایی با اندازه بزرگ هستند که سیستم‌های رایانه‌ای یا پایگاه‌های داده معمولی نمی‌توانند در یک زمان قابل قبول پردازش کنند. برای مدیریت چنین مجموعه داده بزرگی با ویژگی های مقیاس پذیری، از Apache Hadoop استفاده می شود. این یک پلت فرم رایانش ابری است که می تواند حجم زیادی از داده ها را ذخیره کند و سرعت پردازش بالایی دارد، زیرا شامل چندین گره کامپیوتری است. داده های واقعی به فایل های کوچک تقسیم شده و در گره های مختلف ذخیره می شوند. علاوه بر این، Apache Hadoop می تواند از چندین گره برای پردازش موازی استفاده کند که سرعت پردازش را افزایش می دهد. خوشه کلان داده بر اساس پلتفرم Apache Hadoop و نرم افزار موجود در چارچوب آن توسعه یافته است. Apache Hadoop به عنوان زیرساخت پایه از طریق Apache Ambari که یک ابزار مدیریت مبتنی بر وب است نصب شد. نرم افزارهای اضافی از جمله HDFS، Hive و Sqoop نصب شد. لازم به ذکر است که HIVE یک بسته انبار داده است. به طور خاص، کاربران آشنا و راحت با SQL را برای انجام پرس و جوهای موقت، خلاصه سازی و تجزیه و تحلیل داده ها هدف قرار می دهد. علاوه بر این، مکانیزمی برای توسعه یک عملکرد سفارشی برای پردازش خاص یا مبتنی بر مشخصات ارائه می‌کند. Apache NiFi برای خودکارسازی و مدیریت جریان اطلاعات استفاده می شود.شکل ۳ مشخصات سخت افزاری و پیکربندی خوشه پیشنهادی را نشان می دهد.
راه اندازی پیشنهادی شامل چهار ماشین، یک گره اصلی و سه گره برده بود. گره اصلی هماهنگی بین سرویس ها را انجام می دهد و ابرداده های لازم را حفظ می کند. گره برده برای ذخیره داده های بلوک و اجرای وظایف محول شده استفاده می شود. به طور خاص، گره اصلی دارای یک واحد پردازش مرکزی هشت هسته ای (CPU)، حافظه ۱۶ گیگابایتی و یک دیسک ۲ × ۴ ترابایت با RAID1 بود. گره های اصلی ابرداده های تمام بلوک های ذخیره شده در HDFS را ضبط می کنند که بسیار مهم است. خرابی دیسک می تواند منجر به از دست رفتن تمام داده ها شود. بنابراین، حداقل RAID1 برای گره اصلی مورد نیاز است. علاوه بر این، آرایه‌های اضافی دیگر از دیسک‌های مستقل (RAID) مانند RAID5 و RAID 10 می‌توانند برای بهبود عملکرد استفاده شوند. سه نود دیگر دارای مشخصات زیر بودند: پردازنده هشت هسته ای ۸، حافظه ۱۶ گیگابایتی، و دیسک ۳ × ۴ ترابایت بدون RAID. با سه گره برده، مقدار تکرار HDFS باید به صورت دو تنظیم شود. علاوه بر این، نسخه ۶۴ بیتی CentOS 7.0 برای تولید توصیه می شود.
ظرفیت کل کلاستر به شرح زیر است: ۲۴ هسته، ۴۸ گیگابایت حافظه و ۳۶ ترابایت فضای ذخیره سازی. توانایی انجام حداکثر ۲۰ کار را به طور همزمان دارد. چندین هسته CPU برای سیستم عامل رزرو شده است. نسخه Apache Hadoop مورد استفاده ۲٫۷٫۳ و نسخه Hive 2.1.0 بود.

۴٫۴٫ ابزار تجزیه و تحلیل: Mobipack

Mobipack یک نرم افزار منبع باز تحت مجوز MIT است. این شامل سه بسته اصلی است، یعنی یک بسته مستقل، بسته Apache Hadoop و سری نشانگر. بسته مستقل مجموعه‌ای از نرم‌افزار/ابزارهایی است که برای تجزیه و تحلیل داده‌های CDR از جمله ناشناس‌سازی، پیش‌پردازش، درون‌یابی و تجسم استفاده می‌شود. این در حالت مستقل یا یک رایانه معمولی با پشتیبانی چند رشته ای برای اندازه های بزرگ داده اجرا می شود. بسته Apache Hadoop بر اساس پلتفرم Apache Hadoop برای پردازش سریعتر و پشتیبانی از مقیاس پذیری طراحی شده است، بنابراین به آن اجازه می دهد تا حجم زیادی از داده ها را پشتیبانی کند. این بسته شامل مجموعه ای از ابزارهای نوشته شده در پایتون و جاوا برای تجزیه و تحلیل داده های CDR است که شامل محاسبه آماری ساده، مکان مکرر، تجمع مبتنی بر منطقه و هیستوگرام می شود. تجزیه و تحلیل شامل تجسم (با گزارش‌ها و داده‌های پردازش شده سازگار با سایر پلت‌فرم‌های تجسم)، تعیین مبدا-مقصد (OD) و درونیابی مسیر است. سری شاخص برای تجزیه و تحلیل حوزه های کاربردی خاص که به مجموعه خاصی از شاخص های مفید نیاز دارند، توسعه یافته است. متخصصان این حوزه ها می توانند از این شاخص ها برای تحلیل بیشتر استفاده کنند. جزئیات ماژول های ضروری و الگوریتم های آنها در بخش های زیر ارائه شده است. خلاصه ای از توابع و موارد استفاده از آنها نشان داده شده است متخصصان این حوزه ها می توانند از این شاخص ها برای تحلیل بیشتر استفاده کنند. جزئیات ماژول های ضروری و الگوریتم های آنها در بخش های زیر ارائه شده است. خلاصه ای از توابع و موارد استفاده از آنها نشان داده شده است متخصصان این حوزه ها می توانند از این شاخص ها برای تحلیل بیشتر استفاده کنند. جزئیات ماژول های ضروری و الگوریتم های آنها در بخش های زیر ارائه شده است. خلاصه ای از توابع و موارد استفاده از آنها نشان داده شده استجدول ۲ .

۴٫۴٫۱٫ نرم افزار ناشناس سازی

Mobipack [ ۴۰ ] ابزاری برای ناشناس کردن مقادیر قابل شناسایی در داده هایی مانند IMEI، IMSI و شماره تلفن همراه است. این یک برنامه جاوا است که می تواند در هر سیستم عاملی اجرا شود و از اجرای ناشناس سازی با چندین رشته برای تسریع روند پشتیبانی می کند. استفاده از ماشینی با واحد پردازش گرافیکی (GPU) سرعت کدگذاری را افزایش می دهد. شکل ۴ نمونه ای از ورودی و خروجی را پس از اجرای ناشناس نشان می دهد. در اصل، برنامه ها داده های CDR خام را در قالب CSV به عنوان ورودی دریافت می کنند. پس از آن، ناشناس سازی با استفاده از الگوریتم “SHA3-256” توصیه شده توسط GSMA [ ۴۱ ] آغاز می شود. علاوه بر این، “فایل نمک” به عنوان یک متن مکمل برای افزایش امنیت اعمال می شود.
۴٫۴٫۲٫ ابزار نقشه برداری برج سلولی
اطلاعات ثبت جزئیات تماس فقط شامل کد منطقه مکان (LAC) و شناسایی سلول (ID) است و مختصات جغرافیایی نیست. LAC یک کد منطقه مکانی است که گروهی از برج های سلولی است. شناسه سلولی به شماره سلول یا یک بخش اشاره دارد. تجزیه و تحلیل تحرک با استفاده از داده های CDR نیازمند مختصات جغرافیایی برج های سلولی است که در داده های برج سلولی گنجانده شده است. داده های برج سلولی از LAC، Cell ID و مختصات جغرافیایی تشکیل شده است. از این رو، تجزیه و تحلیل تحرک را می توان با نگاشت LAC و Cell ID دو مجموعه داده به عنوان کلید انجام داد. جدول ۳ مؤلفه های نقشه برداری دو مجموعه داده را نشان می دهد.
۴٫۴٫۳٫ داده های آماری برای تضمین کیفیت
به طور کلی، مجموعه داده‌های CDR حاوی داده‌های گمشده و مقادیر غیرعادی هستند. بنابراین لازم است استفاده قبلی آنها بررسی شود. به عنوان مثال، مجموعه داده ممکن است حاوی داده های گمشده یک روز خاص یا داده های بسیار کمتری نسبت به روزهای دیگر باشد. علاوه بر این، فیلتر کردن داده ها مورد نیاز است، زیرا مجموعه داده ممکن است شامل شناسه های غیر انسانی مانند دروازه ها و شناسه های رومینگ باشد که کاربردهای قابل توجهی بالاتری نسبت به افراد عادی دارند [ ۲۱ ]. از این رو، برای اطمینان از کیفیت داده ها، اقلام نشان داده شده در جدول ۴ به عنوان آمار اساسی محاسبه و به عنوان آستانه فیلتر استفاده شد.
۴٫۴٫۴٫ مکان های مکرر
تجزیه و تحلیل مبتنی بر فرکانس یکی از رویکردهای رایجی است که برای تخمین مکان های مهم مانند مکان های خانه از داده های CDR استفاده می شود [ ۴۲ ]. ابزار مکان مکرر به عنوان یک پروکسی برای مکان های ترجیحی یا معمولا بازدید شده یک کاربر استفاده می شود. این مکان ها عمدتاً شامل خانه ها و محل های کار می شوند. یک مکان اضافی ممکن است یک مرکز خرید، مرکز تناسب اندام یا خانه خانوادگی باشد. در مورد داده های CDR، مکان، مکان برج سلولی است. برای هر شناسه مشترک منحصر به فرد، داده ها برای هر مکان و رتبه برج سلولی شمارش می شوند. لیست برتر، که ۹۰ درصد از نقاط داده را پوشش می دهد، به عنوان مکان های مکرر ثبت می شود. برای شناسایی خاص خانه‌ها و محل‌های کار، همان مفهوم محاسباتی را می‌توان با فیلتر کردن داده‌ها با توجه به روز یا شب به کار برد.۲۱ ].
۴٫۴٫۵٫ مقصد اصلی
ماتریس های مبدأ-مقصد بر اساس توزیع سفر [ ۴۳ ] توسعه یافتند. ابتدا، حرکت بین مشاهدات متوالی را بر اساس منطقه اداری (منطقه) برای هر شناسه محاسبه کردیم. سپس زمان سپری شده در مبدا و زمان سپری شده در مقصد را برای هر سفر محاسبه کردیم. پس از آن، برای هر روز، همه افرادی را که از منطقه X به منطقه Y سفر می کردند، میانگین زمان سپری شده در منطقه X قبل از حرکت بیشتر، و زمان سپری شده در منطقه Y پس از رسیدن، جمع آوری کردیم. ما از این تکنیک به عنوان جنبش تماس به تماس (C2CM) یاد می کنیم. شکل ۵ تکنیک توصیف شده در بالا را نشان می دهد.
۴٫۴٫۶٫ درون یابی مسیر
اطلاعات ضبط جزئیات تماس بر اساس استفاده از تلفن همراه تولید می شود، به عنوان مثال، برقراری تماس، ارسال پیامک و استفاده از اینترنت. از این رو، زمانی که هیچ فعالیتی در تلفن های همراه وجود ندارد، داده ای وجود ندارد، بنابراین اطلاعات حرکتی از دست می رود. درونیابی مسیر، بازیابی داده های از دست رفته را با تطبیق شبکه های جاده ای با استفاده از تکنیک های درونیابی تسهیل می کند. ما از الگوریتم توسعه یافته توسط Kanasugi و همکاران استفاده کردیم. [ ۴۴ ]، که آنها با استفاده از گزارش‌های CDR و GPS به‌دست‌آمده در یک بررسی تجربی که در آن میانگین فاصله بین مسیرهای برآورد شده و سیاهه‌های GPS به ازای هر آزمون‌شونده تقریباً ۱٫۸ کیلومتر بود، ارزیابی کردند. ما کد را برای پشتیبانی از پردازش در مقیاس بزرگ به پلتفرم Hadoop منتقل کردیم. شکل ۶نمونه ای از برآورد سفر را بر اساس داده های خام CDR و پس از انجام درونیابی مسیر ارائه می دهد.
همانطور که در شکل ۷ نشان داده شده است ، درونیابی مسیر شامل چهار مرحله است: استخراج نقطه اقامت، تقسیم بندی سفر، جابجایی نقطه اقامت با نقطه مورد علاقه (POI)، و درونیابی مسیر با شبکه حمل و نقل. استخراج نقطه ماندن برای استخراج نقاط ماندن از داده های مسیر، برای تمایز بین یک سفر رفت و آمد و یک موضوع ثابت استفاده می شود.
استخراج نقطه اقامت بر اساس مقادیر مکانی و زمانی نقاط است. در الگوریتم، یک نقطه اقامت نشان دهنده یک منطقه جغرافیایی است که کاربر برای یک دوره زمانی اشغال می کند. فاصله فضا و اختلاف زمانی بین نقاط مشاهده شده برای شناسایی نقاط ماندگاری اعمال می شود که با محدودیت های زیر بیان می شود. فاصله (p شروع ، p پایان ) <D threh ، TimeDiff (p start ، p end ) > T threh ، که در آن D threh و T threh پارامترهای قابل تنظیم هستند. علاوه بر این، D threh حداکثر فاصله ای است که منطقه ای را که به عنوان نقطه ماندن در نظر گرفته می شود پوشش می دهد و T threhحداقل زمانی است که کاربران در یک مکان می گذرانند. پس از استخراج، نقاط اقامت به عنوان داده های پایه برای جداسازی بخش های اقامت و جابجایی در مرحله تقسیم بندی سفر استفاده می شوند.
جابجایی نقطه ماندن شامل جابجایی نقاط ماندن از مرحله قبل به POIهای اطراف با احتمال معین است. این به این دلیل است که مکان CDR بر اساس مکان برج سلولی است، که به این معنی است که همه کاربران در یک منطقه مکان دقیق یکسانی دارند. فرآیند تخصیص مجدد می تواند به توزیع دقیق تری از افراد منجر شود، با توجه به اینکه توزیع منطقه POI را می توان به عنوان یک سکونتگاه انسانی در نظر گرفت، که مکان های افراد دوباره به آن اختصاص داده می شود. این مرحله شکاف‌های بین بخش‌های اقامت/حرکت را پر می‌کند تا اطمینان حاصل شود که هر سفر یک دوره ۲۴ ساعته را پوشش می‌دهد. لازم به ذکر است که POI ها را می توان از توزیع های ساختمانی به دست آمده از داده های OpenStreetMap (OSM) استخراج کرد.
یک مسیر بین هر جفت از نقاط اقامت جابجا شده با جستجوی الگوریتم کوتاه‌ترین مسیر برای مرحله درون‌یابی درون‌یابی می‌شود. فرآیند درونیابی به داده های اضافی از جمله شبکه جاده و داده های ایستگاه پایه Voronoi نیاز دارد [ ۵ ]. جاده را می توان از داده های OSM استخراج کرد، مشابه POI. با این حال، به یک فرآیند تمیز کردن فشرده نیاز دارد که می تواند در Mobipack انجام شود. نتایج داده های مسیر با فواصل ثابت هستند.
۴٫۴٫۷٫ Indicator Series: Mobility Indicators
یک برنامه پایتون برای تولید مجموعه‌ای از شاخص‌های استاندارد شده وجود دارد که توسط گروه ویژه تحرک COVID-19 بانک جهانی [ ۱۶ ] پیشنهاد شده است. توسعه اولیه توسط بانک جهانی قرار بود در Databricks اجرا شود. از این رو، ما آن را دوباره توسعه دادیم تا در خط لوله داده پیشنهادی بر اساس خوشه Apache Hadoop اجرا شود و داده ها در جدول Hive باقی بمانند. همانطور که در جدول ۵ نشان داده شده است، از ۱۱ شاخص کلیدی تشکیل شده است که پروکسی ها را در سطوح مختلف جغرافیایی و زمانی ارائه می کنند .

۴٫۵٫ مجموعه ابزار تجزیه و تحلیل ویژوال

ما یک برنامه کاربردی مبتنی بر وب با عملکرد نقشه برای درک و تفسیر بهتر نتایج ایجاد کردیم. این به کاربر اجازه می دهد تا نتایج، از جمله مبدا-مقصد و برآورد جمعیت را روی نقشه تعاملی مشاهده کند. کاربران می توانند معیارهایی مانند تاریخ، زمان و سطح اداری مکانی را برای دیدگاه های خود انتخاب کنند. همچنین از نمایشگرهای چند لایه با استفاده از ابزارهای اندازه گیری پشتیبانی می کند. ما سیستم را با استفاده از نرم افزار منبع باز توسعه دادیم که برای استفاده یا تکرار نیازی به هزینه مجوز یا هزینه ندارد.
این سیستم از سه جزء اصلی تشکیل شده است: سرور پایگاه داده، سرور نقشه و سرور وب. PostgreSQL با PostGIS به عنوان یک پایگاه داده فضایی برای ذخیره تمام داده ها و ارائه داده ها به وب و سرور نقشه استفاده شد. Geoserver یک سرور منبع باز برای به اشتراک گذاری داده های مکانی است. این برای قابلیت همکاری طراحی شده است و امکان انتشار داده ها از تمام منابع اصلی داده مکانی را با استفاده از استانداردهای باز فراهم می کند. علاوه بر این، Geoserver داده های نقشه را در سرویس نقشه وب (WMS)-/سرویس ویژگی وب (WFS)-به برنامه های کاربردی وب ارائه می کند. در نهایت، Tomcat یک وب سرور منبع باز است که از یک سیستم عامل (OS) پشتیبانی می کند. ما یک برنامه وب با استفاده از جاوا توسعه دادیم و از Leaflet به عنوان رابط برنامه نویسی برنامه نقشه (API) استفاده کردیم. به عنوان مثال، شکل ۸تجسم OD را بر روی نقشه وب با داده های تهیه شده توسط Mobipack نشان می دهد. معیارهای نمایش را می توان انتخاب کرد، مانند تعداد سفرها یا کاربران در طول زمان. ناحیه آبی مبدأ را نشان می دهد و سایر مناطق با طیف رنگی مقصد اصلی مبدا انتخاب شده هستند. رنگ تیره نشان دهنده حجم زیاد است. همانطور که در شکل ۹ نشان داده شده است، کاربران می توانند منطقه مقصد را برای مشاهده اطلاعات بیشتر در مورد جفت OD در برگه نتیجه، از جمله کل OD بر اساس روز هفته انتخاب کنند.

۵٫ نتایج و بحث

در این مطالعه، ما از پلتفرم Apache Hadoop و بسته تحرک منبع باز پیشنهادی Mobipack برای توسعه یک خط لوله داده در مقیاس کامل برای تجزیه و تحلیل داده‌های CDR استفاده کردیم. خط لوله مجموعه‌ای از مراحل پردازش داده را ارائه می‌کند که از دریافت داده‌ها در ابتدای خط لوله شروع می‌شود، و سپس یک سری مراحل دیگر شامل نقشه‌برداری برج سلولی، تضمین کیفیت داده، استخراج مکان مکرر، تجزیه و تحلیل منطقه، استخراج مبدا-مقصد انجام می‌شود. استخراج نقطه اقامت، تقسیم بندی سفر و درونیابی مسیر. سیستم پیشنهادی مجموعه‌ای از خروجی‌های مفید را در فایل‌های CSV در انتهای خط لوله تولید می‌کند. می توان از آن برای تجسم مستقیم یا تجزیه و تحلیل بیشتر حوزه های خاص مانند سلامت، حمل و نقل و مهاجرت داخلی استفاده کرد. خود سیستم برای پردازش بلادرنگ طراحی نشده بلکه برای پردازش دسته ای طراحی شده است. مطابق با ماهیت داده های CDR. داده ها معمولاً به طور منظم ارائه می شوند، مثلاً به صورت روزانه بعد از نیمه شب یا یک بار در هفته. با این حال، هنگامی که داده ها به خوشه می رسد، خط لوله به طور خودکار تمام فرآیندها را مدیریت می کند و شاخص های خروجی را تولید می کند.

۵٫۱٫ پیاده سازی سیستم و مقیاس پذیری

سیستم پیشنهادی از استفاده از Apache Hadoop سود می برد. این می تواند از داده های در مقیاس بزرگ از گیگابایت تا ترابایت یا میلیاردها رکورد داده پشتیبانی کند. علاوه بر این، گسترش فضای ذخیره سازی و بهبود سرعت پردازش را می توان با افزودن ماشین های بیشتر به خوشه با حداقل پیکربندی مجدد و بدون خرابی به دست آورد. افزایش مقیاس با افزودن حافظه، CPU و فضای ذخیره‌سازی بیشتر به یک ماشین، گزینه‌ای درازمدت مناسب نیست، به‌ویژه برای پردازش داده‌های فشرده داده‌های CDR، جایی که داده‌ها به صورت روزانه با رشد سریع به دست می‌آیند. از این رو، در برخی مواقع، دستگاه دیگر قابل ارتقا نخواهد بود و نیاز به یک دستگاه جدید با مشخصات بالا دارد که بسیار گران است. نصب نرم افزار و انتقال داده ها نیز باید انجام شود.
خط لوله را می توان هم در محیط مجازی و هم در سخت افزار فیزیکی برای تولید در مقیاس کامل پیاده سازی کرد. برای راه‌اندازی اولیه، حداقل چهار ماشین در یک کلاستر با مجموع ۲۴ هسته پردازنده، ۴۸ گیگابایت حافظه، ۳۶ ترابایت فضای ذخیره‌سازی و ۲۱ کار همزمان برای پردازش را توصیه می‌کنیم. مشخصات دقیق سخت افزار و نرم افزار در شکل ۳ ارائه شده است. در مورد داده ها، خط لوله به داده های CDR و داده های برج سلولی نیاز دارد. داده های CDR روزانه باید در قالب CSV برای بررسی آسان ارائه شود. از داده های برج سلولی برای نقشه برداری برای به دست آوردن موقعیت جغرافیایی در سطح برج سلولی استفاده می شود. نرم افزار مورد استفاده در خط لوله، از جمله Mobipack، منبع باز است و در مخازن آنلاین موجود است [ ۴۰ ]]. علاوه بر این، گسترش و اصلاح بدون هیچ محدودیتی قابل انجام است.
برای تخمین داده ها بر اساس داده های یک کشور ناشناس، تعداد کل رکوردهای داده برای یک ماه CDR 800 میلیون است، با حجم کل ۶۰ گیگابایت از تقریباً دو میلیون مشترک. در HDFS، تقریباً به ۲۵ گیگابایت فضای ذخیره سازی در فرمت ORC با ضریب تکرار دو نیاز دارد. در مجموع، با مشخصات سخت افزاری اعلام شده، می تواند تا ۴۰ ماه داده CDR را در خود جای دهد. مقداری فضای ذخیره سازی برای فایل های موقت در حین پردازش محفوظ است. با اضافه کردن یک ماشین با مشخصات مشابه، خوشه می تواند تا ۱۲ ماه دیگر از داده های CDR جدید و هفت وظیفه اضافی برای پردازش را در خود جای دهد.
با توجه به مقیاس‌پذیری عملکردی، سیستم پیشنهادی را می‌توان با افزودن قابلیت‌های جدید با توجه به تقاضاهای در حال تکامل و در عین حال اطمینان از در دسترس بودن داده‌های آماده برای تجزیه و تحلیل، افزایش داد. به عنوان مثال، در گامبیا، این سیستم برای ایجاد یک پایگاه شواهد برای طراحی سیاست، با تمرکز بر تجزیه و تحلیل مهاجرت، اجرا شد. در شروع COVID-19، تیم از سیستم موجود با برخی تغییرات برای محاسبه آمار تحرک تعریف شده برای نظارت و برنامه ریزی تحت COVID-19 استفاده کرد [ ۴۵ ].

۵٫۲٫ سنجش عملکرد

ما عملکرد پلت فرم پیشنهادی خود را برای هر ماژول با دو اندازه داده (۵۰ میلیون و ۱۰۰ میلیون رکورد) و ۱۰ و ۲۰ کار همزمان ارزیابی کردیم. سخت افزار مورد استفاده برای آزمایش همان سخت افزار پیشنهادی ارائه شده در شکل ۳ بود. نتایج برای نرم افزار ناشناس سازی داده ها در جدول ۶ نشان داده شده است ، و نتایج برای سایر نرم افزارهای مبتنی بر Hadoop-/Hive در جدول ۷ نشان داده شده است.

۵٫۳٫ مقایسه با پلتفرم های موجود

پلتفرم پیشنهادی تنها بر یک چارچوب منبع باز متکی است که اجرای آسان و قابلیت حمل بالا در محیط هدف را امکان پذیر می کند. برخلاف سایر پلتفرم‌های موجود که برای تجزیه و تحلیل داده‌های CDR طراحی شده‌اند، به هیچ نرم‌افزار تجاری یا پرداخت اشتراک نیازی ندارد. به عنوان مثال، Databricks، که پلتفرم پایگاه داده ای است که توسط شاخص های تحرک COVID-19 WB و FlowKit استفاده می شود، برای اجرای نرم افزار منبع باز خود بر روی مجموعه داده در مقیاس کامل، به مجوز پولی نیاز دارد. ساختن یک سیستم صرفاً بر روی یک چارچوب منبع باز یک مزیت قوی در معرفی یک سیستم جدید برای کشورهای در حال توسعه است که تقاضای داده بالاست در حالی که منابع برای راه اندازی و نگهداری سیستم محدود است. علاوه بر این، سیستم ما برای سازگاری با سایر نرم افزارهای موجود، مانند نشانگر تحرک COVID-19 WB، بهبود یافته است. که در اصل برای استفاده از پلتفرم پایگاه داده Databricks طراحی شده بود. همچنین می تواند در چارچوب متن باز ما اجرا شود. این بهبود به کاربران بالقوه داده‌های CDR سود می‌رساند، زیرا به آن‌ها اجازه می‌دهد تا نرم‌افزارهای مختلف را با انتخاب‌های بیشتر بررسی کنند.

۵٫۴٫ محدودیت مدل

با این وجود، سیستم ما محدودیت های خاصی دارد. اولاً، تخمین دقت شاخص‌ها بسیار به تعداد رکوردها بستگی دارد، به ویژه در تخمین مبدا-مقصد. دوم، استفاده از پلت فرم پیشنهادی مستلزم دسترسی به داده های CDR برای دوره های طولانی برای به دست آوردن نتیجه مناسب است. با این حال، دسترسی به داده‌های CDR بسیار دشوار است، زیرا چنین دسترسی به سطح مشخصی از تأیید دفاتر معتبر مانند تنظیم‌کننده‌های مخابراتی نیاز دارد. فرآیند درون یابی مسیر زمان نسبتاً طولانی چند ساعت طول می کشد و فقط از الگوریتم کوتاه ترین مسیر استفاده می کند که حرکت عادی افراد را پوشش می دهد.

۵٫۵٫ موارد مفید و کاربردی

سیستم پیشنهادی ما در کشورهای مختلف از جمله گینه، سیرالئون، لیبریا، موزامبیک، آنگولا، رواندا و گامبیا اجرا شده است. در این کشورها، ما از نزدیک با مرجع نظارتی مربوطه که صلاحیت دسترسی و تطبیق داده‌ها برای اهداف عمومی را دارد، کار کردیم. مطابق با الزامات مقررات ملی، تنظیم کننده یک سرور امن راه اندازی کرد که در آن همه داده ها در محل روی یک سرور اختصاصی ذخیره می شدند. داده های CDR قبل از انتقال به سیستم ناشناس شدند. فقط آمارهای جمع آوری شده با شخص ثالث به اشتراک گذاشته می شود تا از حریم خصوصی داده ها با رعایت اصل حفاظت از حریم خصوصی توصیه شده توسط سازمان ملل متحد محافظت شود [ ۱۲ ]]. هنگامی که سیستم و داده ها در محل قرار گرفتند، این سیستم می تواند برای تجزیه و تحلیل حوزه های مختلف از جمله سلامت، فقر، مهاجرت، حمل و نقل، آمار جمعیت و حتی طراحی خط مشی استفاده شود. به عنوان مثال، این سیستم برای نشان دادن اینکه چگونه داده‌های CDR تجزیه و تحلیل شده می‌تواند به مسائل خاص مرتبط با همه‌گیری ابولا با تخمین مسیرهای پویا، توزیع مکانی-زمانی و حرکت فرامرزی مردم در گینه، سیرالئون و لیبریا رسیدگی کند [ ۳۵ ، ۴۶ ، ۴۷ ] اجرا شد. . در موزامبیک، برای مطالعات حمل و نقل و برنامه ریزی شهری [ ۴۸ ] به کار گرفته شد. پس از آن، برای فعال کردن تجزیه و تحلیل سریع برای درک تغییرات در الگوهای تحرک در طول COVID-19 [ ۱۲ ] سازگار شد.]. در گامبیا، این سیستم در ابتدا برای تجزیه و تحلیل مهاجرت داخلی پیاده سازی شد. سپس، برای نظارت و برنامه ریزی تحت COVID-19 [ ۴۵ ] اعمال شد. در آنگولا و رواندا، این سیستم برای تشخیص نقاط داغ و ردیابی تماس در طول همه‌گیری COVID-19 استفاده شد. علاوه بر این، در رواندا، این سیستم به‌علاوه برای ارزیابی تأثیر COVID-19 بر حمل‌ونقل عمومی استفاده شد [ ۴۹ ].

۵٫۶٫ چالش های داده های CDR

اگرچه کاربرد داده‌های CDR پتانسیل بالایی برای حوزه‌های مختلف دارد، اما هنوز چالش‌هایی وجود دارد. در حالی که پوشش جمعیتی داده‌های CDR بسیار بالاتر از یک نظرسنجی معمولی است، چالش بازنمایی جمعیت همچنان پابرجاست. داده های CDR نشان دهنده جمعیت هایی است که مشترک خدمات شبکه تلفن همراه هستند. مردان و افراد ثروتمند بیشتر صاحب تلفن هستند. کودکان و سالمندان در داده ها کمتر ارائه شده اند [ ۱۷ و ۱۹ ]. این سوگیری ها را می توان با ترکیب اطلاعات مربوط به مالکیت تلفن از نظرسنجی ها در صورت وجود، کاهش داد [ ۲۲ ].
دسترسی به داده ها نیز یک چالش بزرگ است. داده های CDR در هر کشور یا منطقه ای وجود دارد که خدمات شبکه تلفن همراه در دسترس است، اما هماهنگی و مذاکره برای دسترسی به داده ها زمان می برد. یک گزینه جایگزین می تواند داده های آماری ارائه شده توسط بخش خصوصی باشد که برای حمایت از فعالیت های بشردوستانه در دسترس قرار می گیرد. به عنوان مثال، پس از شروع COVID-19، Google LLC گزارش‌های تحرک جامعه COVID-19 را منتشر کرد که روند حرکت در طول زمان را براساس جغرافیا در دسته‌های مختلف مکان‌ها ترسیم می‌کند. Meta Platforms, Inc. نقشه های مختلف را از طریق پلتفرم Facebook Data for Good به اشتراک می گذارد. این معیارهای تحرک را ارائه می دهد که برای نشان دادن تغییرات در حرکت و ماندن طراحی شده اند.
وضوح فضایی گاهی اوقات دقت تجزیه و تحلیل را محدود می کند. بر خلاف داده های GPS، موقعیت جغرافیایی داده های CDR بر اساس موقعیت برج سلولی است که موقعیت دقیق دستگاه را ارائه نمی دهد. دقت مکان در مناطق شهری حداکثر در محدوده صدها متری نوسان دارد، در حالی که در مناطق روستایی می تواند تا چندین کیلومتر باشد. این را می توان با ترکیب اطلاعات از منابع داده دیگر ذکر شده در بالا کاهش داد. از آنجایی که این مجموعه داده‌ها مبتنی بر داده‌های متداول‌تر و دانه‌ای هستند، می‌توان از آنها برای تکمیل و بهبود نتایج تجزیه و تحلیل داده‌های CDR استفاده کرد.

۶٫ نتیجه گیری

داده‌های به‌موقع و قابل اعتماد برای اطلاع‌رسانی تصمیم‌گیری، به‌ویژه در زمینه‌های فاجعه‌ای مانند بلایای ملی یا همه‌گیری COVID-19 بسیار مهم هستند. علاوه بر این، می توان از آنها برای نظارت و ارزیابی سناریوها استفاده کرد. داده‌های CDR تلفن‌های همراه اجازه می‌دهد تا پویایی تحرک انسان با مُهرهای زمانی و اطلاعات مکان در مقیاس ملی، بدون نصب برنامه‌های کاربردی اضافی ثبت شود. این مقاله یک خط لوله داده با یک بسته تحلیل تحرک منبع باز پیشنهاد می‌کند که امکان پردازش داده‌های CDR در مقیاس کامل از داده‌های خام تا نتایج نشانگر و تجسم را فراهم می‌کند. علاوه بر این، دستورالعمل‌های دقیق انتقال سیستم از طریق یک مخزن باز، یعنی GitHub، تهیه و در دسترس قرار گرفت. بنابراین، می توان آن را به راحتی بر اساس فرض شریک تجزیه و تحلیل داده ها در کشور هدف پیاده سازی کرد. انتظار می رود سیستم پیشنهادی به شیوه ای پایدار مورد استفاده قرار گیرد و بر اساس چارچوب های منبع باز توسعه یافته است. علاوه بر این، پس از اتمام پروژه ای که در آن سیستم معرفی می شود، می توان از آن استفاده کرد. توسعه ظرفیت نقش مهمی در تقویت پایداری چنین ابتکاراتی دارد. به عنوان مثال، در موارد فوق، آموزش توسط مهندسان رگولاتور ICT ارائه شده است. علاوه بر این، این تأیید می کند که توسعه چنین سیستمی به آمادگی و تصمیم گیری کمک می کند. در موارد فوق آموزش توسط مهندسان رگولاتور ICT ارائه شد. علاوه بر این، این تأیید می کند که توسعه چنین سیستمی به آمادگی و تصمیم گیری کمک می کند. در موارد فوق آموزش توسط مهندسان رگولاتور ICT ارائه شد. علاوه بر این، این تأیید می کند که توسعه چنین سیستمی به آمادگی و تصمیم گیری کمک می کند.
به‌عنوان تحقیقات آینده، هدف ما افزایش قابلیت خط لوله داده‌ها با افزودن ویژگی‌های بیشتری مانند تخمین ترافیک جاده‌ای، تخمین ویژگی جمعیت‌شناختی و محاسبه شعاع چرخش است. علاوه بر این، مایلیم استفاده از خط لوله را به موارد استفاده بیشتری مانند برنامه ریزی شهری و مهاجرت داخلی گسترش دهیم.

منابع

  1. گومز، تی پی؛ لوکاناتان، اس. استفاده از داده های بزرگ برای حمایت از اندازه گیری اهداف توسعه پایدار. الکترون SSRN. J. ۲۰۱۷ ، ۱ ، ۱-۱۴٫ [ Google Scholar ] [ CrossRef ]
  2. کیشور، ن. کیانگ، ام وی؛ Engø-Monsen، K. ومبار، ن. شرودر، آ. بالساری، س. Buckee, CO اندازه گیری تحرک برای نظارت بر مداخلات سفر و فاصله گذاری فیزیکی: یک چارچوب رایج برای تجزیه و تحلیل داده های تلفن همراه. Lancet Digit. Health ۲۰۲۰ , ۲ , E622–E628. [ Google Scholar ] [ CrossRef ]
  3. ITU. اندازه گیری توسعه دیجیتال: آمار و ارقام ۲۰۲۰ ; انتشارات ITU: ژنو، سوئیس، ۲۰۲۰٫ [ Google Scholar ]
  4. اوله، جی. راین، ا. فرانک، دبلیو. درک تغییرپذیری ماهانه در فضاهای فعالیت انسانی: یک مطالعه دوازده ماهه با استفاده از سوابق جزئیات تماس تلفن همراه. ترانسپ Res. قسمت ج: ظهور. تکنولوژی ۲۰۱۴ ، ۳۸ ، ۱۲۲-۱۳۵٫ [ Google Scholar ]
  5. رین، ا. آنتو، ا. آنتی، آر. اولار، م. Siiri، S. ارزیابی داده های موقعیت یابی غیرفعال تلفن همراه برای بررسی های گردشگری: مطالعه موردی استونیایی. تور. مدیریت ۲۰۰۸ ، ۲۹ ، ۴۶۹-۴۸۶٫ [ Google Scholar ]
  6. گونزالس، ام سی؛ هیدالگو، کالیفرنیا؛ Barabási، AL درک الگوهای تحرک فردی انسان. طبیعت ۲۰۰۸ ، ۴۵۳ ، ۷۷۹-۷۸۲٫ [ Google Scholar ] [ CrossRef ]
  7. سازمان ملل. گزارش اهداف توسعه پایدار ۲۰۲۰ ؛ انتشارات سازمان ملل: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۲۰٫ [ Google Scholar ]
  8. گروه کاری جهانی سازمان ملل متحد در مورد کلان داده ها برای آمار رسمی. راهنمای استفاده از داده های تلفن همراه برای آمار رسمی ; انتشارات سازمان ملل: نیویورک، نیویورک، ایالات متحده آمریکا، ۲۰۱۹٫ [ Google Scholar ]
  9. بچیر، دی. خدابندلو، گ. گوتیه، وی. یعقوبی، من; Puchinger, J. استنباط جریانهای پویا مبدا-مقصد با استفاده از حالت حمل و نقل با استفاده از داده تلفن همراه. ترانسپ Res. قسمت C Emerg. تکنولوژی ۲۰۱۹ ، ۱۰۱ ، ۲۵۴-۲۷۵٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. باکی، CO؛ وسولوفسکی، آ. ایگل، NN; هانسن، ای. برف، تلفن های همراه RW و مالاریا: مدل سازی سفر انسان و انگل Travel Med. آلوده کردن دیس ۲۰۱۳ ، ۱۱ ، ۱۵-۲۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. بنگتسسون، ال. لو، ایکس. تورسون، ا. گارفیلد، آر. Schreeb, JV بهبود پاسخ به بلایا و شیوع با ردیابی جابجایی جمعیت با داده های شبکه تلفن همراه: یک مطالعه مکانی پس از زلزله در هائیتی. PLoS Med. ۲۰۱۱ ، ۸ ، e1001083. [ Google Scholar ] [ CrossRef ]
  12. رونالد، جی. کواچ، ک. اسکو، اس. سالویر، ای. سوسترا، ک. بنگتسسون، ال. لی، تی. Adewole، WA; نستر، جی. آرایی، ع. و همکاران اصول راهنما برای حفظ اعتماد عمومی در استفاده از داده های اپراتور تلفن همراه برای اهداف خط مشی. سیاست داده ۲۰۲۱ ، ۳ ، E24. [ Google Scholar ] [ CrossRef ]
  13. میلوشوا، اس. لوین، ا. گومز، سل ماتکنیا، دی. Reid, K. چالش‌ها و فرصت‌ها در دسترسی به داده‌های تلفن همراه برای پاسخ به COVID-19 در کشورهای در حال توسعه. سیاست داده ۲۰۲۱ ، ۳ ، e20. [ Google Scholar ] [ CrossRef ]
  14. ایومی، ع. ویتایانگ کورن، آ. کاناسوجی، اچ. فن، ز. اوهیرا، دبلیو. Cumbane، SP; شیباساکی، آر. ساخت یک اکوسیستم داده برای استفاده از داده های مخابراتی برای اطلاع رسانی تلاش برای پاسخ به COVID-19. در مجموعه مقالات پنجمین کنفرانس داده‌های بین‌المللی برای سیاست ۲۰۲۰، لندن، بریتانیا، ۱۵ تا ۱۷ سپتامبر ۲۰۲۰٫ [ Google Scholar ]
  15. فلومیندر. FlowKit. در دسترس آنلاین: https://github.com/Flowminder/FlowKit (در ۱ اوت ۲۰۲۱ قابل دسترسی است).
  16. کارگروه تحرک COVID19. COVID-Mobile-Data. در دسترس آنلاین: https://github.com/worldbank/covid-mobile-data (در ۱ اوت ۲۰۲۱ قابل دسترسی است).
  17. وسولوفسکی، آ. عقاب، ن. نور، AM; برف، RW; Buckee, CO تاثیر سوگیری ها در مالکیت تلفن همراه بر برآورد تحرک انسان. JR Soc. رابط ۲۰۱۳ ، ۱۰ ، ۲۰۱۲۰۹۸۶٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
  18. کوپر، نماینده مجلس آیا آسمان در حال سقوط است؟ فناوری جدید، رسانه های در حال تغییر، و آینده نظرسنجی ها. Surv. Res. Methods ۲۰۱۳ ، ۷ ، ۱۴۵-۱۵۶٫ [ Google Scholar ]
  19. دیویل، پی. لینارد، سی. مارتین، اس. گیلبرت، ام. استیونز، FR; Gaughan، AE; Tatem، AJ نقشه برداری پویا جمعیت با استفاده از داده های تلفن همراه. Proc. Natl. آکادمی علمی ایالات متحده آمریکا ۲۰۱۴ ، ۱۱۱ ، ۱۵۸۸۸-۱۵۸۹۳٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  20. لیو، ی. سویی، ز. کانگ، سی. گائو، ی. کشف الگوهای سفر بین شهری و تعامل فضایی از داده های ورود به شبکه های اجتماعی. PLoS ONE ۲۰۱۴ ، ۹ ، e86026. [ Google Scholar ] [ CrossRef ]
  21. راین، ا. سیری، س. اوله، جی. ارکی، س. Margus, T. استفاده از داده‌های موقعیت‌یابی موبایل برای مدل‌سازی مکان‌ها که برای کاربران تلفن‌های همراه معنادار است. J. فناوری شهری. ۲۰۱۰ ، ۱۷ ، ۳-۲۷٫ [ Google Scholar ]
  22. ویلسون، آر. Erbach-Schoenberg، EZ; آلبرت، ام. پاور، دی. تاج، اس. گونزالس، م. Bengtsson، L. ارزیابی سریع و نزدیک به زمان واقعی جابجایی جمعیت با استفاده از داده های تلفن همراه پس از بلایا: زلزله ۲۰۱۵ نپال. PLoS Curr. ۲۰۱۶ ، ۸ . [ Google Scholar ] [ CrossRef ]
  23. لیو، جی. براون، ای. دوپمایر، سی. کوکرتز، پی. رایبرگ، دی اس؛ روبینیوس، م. هاگنمایر، وی. مفهوم معماری و ارزیابی چارچوبی برای اتوماسیون کارآمد جریان های کار علمی محاسباتی: یک مثال تجزیه و تحلیل سیستم های انرژی. Appl. علمی ۲۰۱۹ ، ۹ ، ۷۲۸٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  24. عیسی، ح. Zulkernine، F. چارچوبی مقیاس پذیر و قوی برای دریافت جریان داده. در مجموعه مقالات کنفرانس بین المللی IEEE 2018 در مورد داده های بزرگ، سیاتل، WA، ایالات متحده، ۱۰-۱۳ دسامبر ۲۰۱۸؛ صص ۲۹۰۰–۲۹۰۵٫ [ Google Scholar ]
  25. لیو، جی. براون، ای. دوپمایر، سی. کوکرتز، پی. رایبرگ، دی اس؛ روبینیوس، م. Hagenmeyer, V. یک چارچوب عمومی و بسیار مقیاس پذیر برای اتوماسیون و اجرای فرآیندهای کاری پردازش داده های علمی و شبیه سازی. در مجموعه مقالات پانزدهمین کنفرانس بین المللی IEEE در معماری نرم افزار، سیاتل، WA، ایالات متحده، ۳۰ آوریل تا ۴ مه ۲۰۱۸؛ صص ۱۴۵-۱۵۵٫ [ Google Scholar ]
  26. سبعی، ح. Taieb, MAH; Aouicha، MB بررسی فرآیند تجزیه و تحلیل رسانه های اجتماعی و خط لوله داده های بزرگ. Soc. شبکه مقعدی حداقل ۲۰۱۸ ، ۸ ، ۳۰٫ [ Google Scholar ] [ CrossRef ]
  27. پرویز، ف. وشیسته، ع. اندرسون، آر. بررسی چالش ها در خط لوله داده های توسعه. در مجموعه مقالات کنفرانس ۲۰۱۹ رایانش و جوامع پایدار، آکرا، غنا، ۳ تا ۵ ژوئیه ۲۰۱۹؛ صص ۱۳-۲۱٫ [ Google Scholar ]
  28. امیدوار-تهرانی، ب. Amer-Yahia, S. خطوط لوله داده برای تجزیه و تحلیل گروه کاربر. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD در مدیریت داده ها، آمستردام، هلند، ۳۰ ژوئن تا ۵ ژوئیه ۲۰۱۹؛ صفحات ۲۰۴۸–۲۰۵۳٫ [ Google Scholar ]
  29. میسال، سی. دروکو، ام. ترمبلی، جی. مارتینلی، آر. Aldinucci, M. PiCo: خطوط لوله تجزیه و تحلیل داده با کارایی بالا در C++ مدرن. ژنرال آینده. محاسبه کنید. سیستم ۲۰۱۸ ، ۸۷ ، ۳۹۲-۴۰۳٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. آنگ، تی. حداقل، HY; Maw، ارزیابی عملکرد AH برای سیستم پیام رسانی بلادرنگ در معماری خط لوله داده های بزرگ. در مجموعه مقالات کنفرانس بین المللی ۲۰۱۸ در زمینه محاسبات توزیع شده مبتنی بر سایبری و کشف دانش، ژنگژو، چین، ۱۸ تا ۲۰ اکتبر ۲۰۱۸؛ ص ۱۹۸-۲۰۴٫ [ Google Scholar ]
  31. یانگ، جی. داش، م. Teo, SG PPTPF: Privacy-Preserving Trajectory Publication Framework for CDR Mobile Trajectories. ISPRS Int. J. Geo-Inf. ۲۰۲۱ ، ۱۰ ، ۲۲۴٫ [ Google Scholar ] [ CrossRef ]
  32. عبدالله، HS; خفاگی، م.ح. Omara، FA مطالعه موردی: چارچوب مجهز به GPU Spark برای کنترل شیوع COVID-19 با استفاده از داده های مکانی-زمانی تلفن همراه. کامپیوترها ماتر ادامه ۲۰۲۰ ، ۶۵ ، ۱۳۰۳-۱۳۲۰٫ [ Google Scholar ] [ CrossRef ]
  33. کوین، اس. من، ج. وانگ، ایکس. لی، سی. دونگ، اچ. Ge, X. استفاده از تجزیه و تحلیل داده های بزرگ برای نظارت بر جریان گردشگران برای مدیریت عملیات منطقه منظره. گسسته. دین نات. Soc. ۲۰۱۹ ، ۲۰۱۹ ، ۸۲۳۹۰۴۷٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  34. نووویچ، او. بردار، س. مساروش، م. کرنویویچ، وی. پاپادوپولوس، A. کشف رابطه بین پویایی اتصالات انسانی و کاربری زمین. ISPRS Int. J. Geo-Inf. ۲۰۲۰ ، ۹ ، ۱۴۰٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  35. ITU. تجزیه و تحلیل سوابق جزئیات تماس (CDR): جمهوری گینه ; گزارش ITU: ژنو، سوئیس، ۲۰۱۷٫ [ Google Scholar ]
  36. شانگگوان، بی. یو، پی. وو، زی. جیانگ، ال. پردازش داده های فضایی بزرگ با اسپارک آپاچی. در مجموعه مقالات ششمین کنفرانس بین المللی آگرو-ژئوانفورماتیک، فیرفکس، VA، ایالات متحده آمریکا، ۷ تا ۱۰ اوت ۲۰۱۷; صص ۱-۴٫ [ Google Scholar ]
  37. ویتایانگ کورن، آ. هورانونت، تی. Shibasaki, R. مقایسه عملکرد تکنیک های پردازش داده های مکانی برای مجموعه داده تلفن همراه در مقیاس بزرگ. در مجموعه مقالات سومین کنفرانس بین المللی محاسبات برای تحقیقات و کاربردهای جغرافیایی، واشنگتن، دی سی، ایالات متحده آمریکا، ۱ تا ۳ ژوئیه ۲۰۱۲٫ پ. ۱٫ [ Google Scholar ]
  38. بنیاد نرم افزار آپاچی هادوپ در دسترس آنلاین: https://hadoop.apache.org (در ۱ اوت ۲۰۲۱ قابل دسترسی است).
  39. بنیاد نرم افزار آپاچی جرقه. در دسترس آنلاین: https://spark.apache.org (در ۱ اوت ۲۰۲۱ قابل دسترسی است).
  40. نرم افزار Mobipack. داده های مکانی مشترک. در دسترس آنلاین: https://github.com/SpatialDataCommons (در ۱ اوت ۲۰۲۱ قابل دسترسی است).
  41. GSMA. دستورالعمل های GSMA در مورد حفاظت از حریم خصوصی در استفاده از داده های تلفن همراه برای واکنش به شیوع ابولا ؛ دستورالعمل‌های GSMA: لندن، بریتانیا، ۲۰۱۴٫ [ Google Scholar ]
  42. ونهوف، م. لی، سی. Smoreda، Z. عملکرد و حساسیت های تشخیص خانه بر روی داده های تلفن همراه. در Big Data Meets Survey Science 2020: مجموعه ای از روش های نوآورانه ؛ وایلی: هوبوکن، نیوجرسی، ایالات متحده آمریکا، ۲۰۲۰؛ ص ۲۴۵-۲۷۱٫ [ Google Scholar ]
  43. بنداری، دی.م. ویتایانگ کورن، آ. شیباساکی، آر. رحمان، MM برآورد مبدا-مقصد با استفاده از داده های تماس تلفن همراه: مطالعه موردی داکای بزرگ، بنگلادش. در مجموعه مقالات سیزدهمین کنفرانس بین المللی دانش، اطلاعات و سیستم های پشتیبانی خلاقیت (KICSS)، پاتایا، تایلند، ۱۵ تا ۱۷ نوامبر ۲۰۱۸؛ صص ۱-۷٫ [ Google Scholar ]
  44. کاناسوجی، اچ. سکیموتو، ی. کوروکاوا، م. واتانابه، تی. موراماتسو، اس. Shibasaki، R. برآورد مسیر فضایی-زمانی مطابق با تحرک انسان با استفاده از داده های شبکه سلولی. در مجموعه مقالات کنفرانس بین المللی IEEE 2013 در کارگاه های آموزشی فراگیر محاسبات و ارتباطات (کارگاه های آموزشی DERCOM)، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، ۱۸ تا ۲۲ مارس ۲۰۱۳٫ صص ۲۶۷-۲۷۲٫ [ Google Scholar ]
  45. آرایی، ع. نیپنبرگ، ای. مایر، م. Witayangkurn، A. پتانسیل پنهان سوابق جزئیات تماس در گامبیا. سیاست داده ۲۰۲۱ ، ۳ ، E9. [ Google Scholar ] [ CrossRef ]
  46. ITU. تجزیه و تحلیل سوابق جزئیات تماس (CDR): جمهوری لیبریا ; گزارش ITU: ژنو، سوئیس، ۲۰۱۷٫ [ Google Scholar ]
  47. ITU. تجزیه و تحلیل ضبط جزئیات تماس (CDR): سیرالئون ; گزارش ITU: ژنو، سوئیس، ۲۰۱۷٫ [ Google Scholar ]
  48. باتران، م. آرایی، ع. کاناسوجی، اچ. Cumbane، SP; گرچن، سی. سکیموتو، ی. Shibasaki، R. برآورد زمان سفر شهری در ماپوتو بزرگ با استفاده از داده های بزرگ تلفن همراه. در مجموعه مقالات بیستمین کنفرانس IEEE 2018 در انفورماتیک تجاری (CBI)، وین، اتریش، ۱۱ تا ۱۴ ژوئیه ۲۰۱۸؛ ص ۱۲۲-۱۲۷٫ [ Google Scholar ] [ CrossRef ]
  49. GSMA. استفاده از داده‌های بزرگ موبایل و هوش مصنوعی برای بهره‌مندی از جامعه: بینش‌هایی از واکنش COVID-19 ؛ گزارش GSMA: لندن، بریتانیا، ۲۰۲۱٫ [ Google Scholar ]
شکل ۱٫ ساختار کلی خط لوله تجزیه و تحلیل داده ها.
شکل ۲٫ نمونه ای از مراحل پردازش برای تجزیه و تحلیل تحرک داده های CDR.
شکل ۳٫ مشخصات سخت افزاری و نرم افزاری خوشه کلان داده.
شکل ۴٫ نمونه ای از ورودی و خروجی پس از اجرای ناشناس.
شکل ۵٫ تصویری از تکنیک حرکت تماس به تماس (C2CM).
شکل ۶٫ نمونه ای از برآورد سفر بر اساس داده های خام CDR و پس از انجام درونیابی مسیر.
شکل ۷٫ مراحل کلی درونیابی مسیر.
شکل ۸٫ تجسم OD بر روی یک نقشه وب (آبی مبدا را نشان می دهد و سایر مناطق با محدوده رنگ مقصد اصلی مبدا انتخاب شده هستند).
شکل ۹٫ نتیجه ای از مقصد انتخاب شده بر روی نقشه وب.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما