۱٫ مقدمه
اخیراً دوچرخه سواری در برنامه ریزی شهری مورد توجه فزاینده ای قرار گرفته است زیرا راه حلی برای مبارزه با تراکم ترافیک، آلودگی هوا، انتشار گازهای گلخانه ای، وابستگی به سوخت های فسیلی و عدم فعالیت فیزیکی در نظر گرفته می شود [ ۱ ]. مدلهای انتخاب مسیر دوچرخهسوار برای شبیهسازی سناریوهای ترافیکی در مقیاس بزرگ (یا دوقلوهای دیجیتال) که شامل تحرک نرم هستند، ضروری هستند. برخی از مقالات در مورد انتخاب مسیر دوچرخه سوار وجود دارد، [ ۲ ، ۳ ، ۴ ، ۵ ، ۶ ، ۷]؛ با این حال، تاثیر زمان انتظار دوچرخه سوار بر مدل های انتخاب مسیر هنوز به طور گسترده مورد مطالعه قرار نگرفته است، علیرغم این واقعیت که سهم قابل توجهی از زمان سفر کلی سفرهای شهری را تشکیل می دهد (به بحث زیر مراجعه کنید). برای مثال، بروچ و همکاران. (۲۰۱۲) یک مدل انتخاب مسیر را برای دوچرخه سواران کالیبره کرد تا ترجیحات آنها را برای نوع شناسی تسهیلات بدون در نظر گرفتن زمان انتظار درک کنند. نویسندگان از واحدهای GPS برای مشاهده رفتار ۱۶۴ دوچرخه سوار در پورتلند، اورگان، ایالات متحده استفاده کردند [ ۲ ]]. ارگوت و همکاران (۲۰۱۲) مدل جدیدی را برای تعیین مجموعه مسیر برای انتخاب دوچرخه سواران رفت و آمد با فرمول بندی یک مسئله مسیریابی دو هدفه پیشنهاد کرد. دو هدف در نظر گرفته شده مناسب بودن یک مسیر برای دوچرخه سواری و کل زمان سفر است، بدون در نظر گرفتن اینکه زمان انتظار با توجه به زمان سفر متفاوت درک می شود [ ۳ ]. فقدان مطالعات مربوط به کمی سازی زمان انتظار دوچرخه سواران بیشتر به دلیل نبود ارزیاب یا برآوردگر زمان انتظار برای دوچرخه سواران و همچنین عدم وجود نظرسنجی در محل است که به این نوع مشکلات رسیدگی می کند [ ۸ ]]. با این حال، تأثیر توقف ها و تأخیرها در طول سفرهای دوچرخه در چندین مطالعه مورد تجزیه و تحلیل قرار گرفته است. Börjesson و Eliasson (2012) دریافتند که درک توقف ۱ دقیقه ای در چراغ راهنمایی با ۳٫۱ دقیقه دوچرخه سواری مطابقت دارد [ ۹ ]. اخیراً، Fioreze و همکاران. (۲۰۱۹) نشان داده اند که بیشتر دوچرخه سواران به طور قابل توجهی زمان انتظار خود را بیش از حد برآورد می کنند: زمان انتظار درک شده دوچرخه سواران تقریباً پنج برابر بیشتر از زمان انتظار واقعی آنها بود [ ۱۰ ]. روپی و همکاران (۲۰۲۰) نشان داده اند که به طور متوسط زمان انتظار ۱۵ درصد از کل مدت سفر را بر اساس تجزیه و تحلیل نمونه داده های بزرگی از ردیابی GPS تشکیل می دهد [ ۱۱ ]. این مطالعات بر اهمیت تجزیه و تحلیل زمان انتظار دوچرخه سوار تاکید می کند.
به طور کلی، زمان انتظار را می توان از روی مشخصات سرعت دوچرخه سوار تخمین زد. رویکردهای متفاوتی برای محاسبه محتمل ترین مشخصات سرعت [ ۱۲ ، ۱۳ ، ۱۴ ، ۱۵ ] و تخمین روند حرکت اتخاذ شده است. برای مثال، Strauss and Miranda-Moreno (2017) = مشخصات سرعت را با میانگین بیش از سه، چهار و هفت نقطه GPS قبل از تخمین سرعت دوچرخه سوار و تاخیر زمانی در تقاطع ها، که با زمان انتظار متفاوت است، تقریب زدند. آنها از دست دادن زمان در تقاطع ها را به عنوان اختلاف زمانی بین زمان عبور از تقاطع در نظر می گیرند در حالی که میانگین سرعت در پیوند ورودی و زمان موثر برای عبور از تقاطع را حفظ می کنند [ ۱۲ ].]. به همین دلیل، روپی و همکاران. (۲۰۲۰) ابزار جدیدی را برای تخمین زمان انتظار دوچرخه سواران از پایگاه داده بزرگ ردیابی GPS [ ۱۱ ] پیشنهاد کرد و اعتبار آن را از طریق نظرسنجی های دستی تأیید کرد [ ۱۶ ، ۱۷ ].
تفاوت بین زمان انتظار موثر و درک شده برای همه دوچرخه سواران یکسان نیست. گونه شناسی متمایز دوچرخه سواران تفاوت هایی را در درک و ارزش گذاری این تفاوت نشان می دهد. به همین دلیل است که برای مدل های انتخاب مسیر مهم است که ابتدا نوع شناسی دوچرخه سواران را شناسایی کنند. پولیزیانی و همکاران (۲۰۲۱) سه گونه شناسی مختلف از دوچرخه سواران را در زمان شلوغی ترافیک در بولونیا، ایتالیا شناسایی کرد [ ۱۸ ]]. این کار با استفاده از یک مجموعه داده شامل ۱۶۱۶۸ ردیابی GPS از ۲۱۳۵ دوچرخهسوار که سفرهایشان از ساعت ۷ صبح تا ۱۰ صبح بین آوریل و سپتامبر ۲۰۱۷ ثبت شده بود، انجام شد. گونهشناسی مختلف دوچرخهسواران با استفاده از یک رویکرد آماری به نام تحلیل خوشهای شناسایی شد. با توجه به ویژگیهای دادهها، نویسندگان یک تکنیک خوشهبندی انعطافپذیر و بسیار پارامتری به نام ترکیبی از توزیعهای هذلولی تعمیمیافته (CGHD) پیشنهاد شده توسط Tortora و همکاران را به کار بردند. (۲۰۱۹). در مدل مورد استفاده، هر گونه شناسی دوچرخه سواران یا خوشه ها از یک توزیع هذلولی تعمیم یافته چند بعدی پیروی می کنند [ ۱۹ ]]، یعنی توزیع انعطافپذیرتر در مقایسه با توزیعهای معمولی یا Student-t شناخته شده. تجزیه و تحلیل بعدی تفاوت در ویژگیهای بین سه خوشه، سه نوع رفتاری را نشان داد: دوچرخهسواران RHC (خطرناک و عجولانه)، IIC (بیتجربه و ناکارآمد)، و SIC (حیلهگر و آگاه). پولیزیانی و همکاران (۲۰۲۱) تفاوت های رفتاری کلیدی را بین گونه شناسی های ذکر شده با استفاده از تحلیل خوشه ای نشان داد. دوچرخه سواران پرخطر و عجول تمایل دارند کوتاه ترین مسیر را از طریق استفاده از جاده های ناایمن با تردد وسایل نقلیه انتخاب کنند و چراغ های راهنمایی زیادی مانع از آن می شوند. دوچرخهسواران حیلهگر و آگاه، مسیرهای طولانیتر و در عین حال کمتر شلوغ با مسیرهای دوچرخهسواری مشخص را ترجیح میدهند تا از چراغهای راهنمایی دوری کنند. دوچرخه سواران بی تجربه و ناکارآمد با سرعت کم مشخص می شوند و زمان بسیار بیشتری را در انتظار صرف می کنند [ ۱۸ ]]. با روشن شدن تفاوت های رفتاری بین سه نوع شناسی دوچرخه سوار، این احتمال وجود دارد که دوچرخه سواران از هر گونه شناسی زمان انتظار متفاوتی را در حین انجام همان مانور نشان دهند.
به این ترتیب، هدف کار حاضر ساخت مدل های جداگانه برای هر یک از این سه نوع شناسی با استفاده از پایگاه داده GPS یکسان برای پیش بینی میانگین زمان انتظار دوچرخه سوار در حین انجام یک مانور است. این پیشبینیها میتواند بخشی از مدل انتخاب مسیر دوچرخهسوار باشد که تاثیر زمان انتظار را در بر میگیرد.
بخش ۲ روششناسی و روشهای انتخاب مدل را توضیح میدهد و دادههای مورد استفاده و همچنین توضیح آنها را برای مطالعه خاص نشان میدهد. بخش ۳ نتایج را نشان می دهد و بحث می کند. نتیجه گیری نهایی و کار آینده در بخش ۴ ارائه شده است.
۲٫ روش شناسی و مدل
این مقاله به دنبال پیشبینی میانگین زمان انتظار دوچرخهسواران شهری در ساعات شلوغی هنگام انجام مانورهای مختلف در تقاطعهای جادهای است. روش استفاده شده به ما اجازه می دهد تا مدل های پیش بینی فردی را برای سه نوع شناسی دوچرخه سواری که قبلا شناسایی شده بودند شناسایی کنیم [ ۱۸ ]]. پایگاه داده مانور در دو مرحله اصلی پردازش می شود: (۱) یک زیر گروه از ۶۰ مانور با سفر بالا توسط دوچرخه سواران انتخاب می شوند، همراه با ۶۰ ویژگی مانور که تصور می شود میانگین زمان انتظار را پیش بینی می کنند. ردیابیهای GPS جمعآوری میشوند تا میانگین زمان انتظار برای سه نوع دوچرخهسوار در هر مانور انتخابشده به دست آید، و پاکسازی دادهها و انتخاب ویژگیها برای کاهش تدریجی پیچیدگی مدل با حذف ویژگیهای وابسته و نامربوط اجرا میشوند. (۲) رگرسیون هسته ناپارامتریک به عنوان مدل پیشبینی بهینه در بین رگرسیون جنگل تصادفی و SVM هسته گاوسی شناسایی شده است و برای پیشبینی میانگین زمان انتظار پیادهسازی شده است.
۲٫۱٫ داده ها
۲٫۱٫۱٫ ردیابی GPS دوچرخه سواران
ردیابی GPS دوچرخه سواران در ابتکار «بلا موسا» با بودجه اتحادیه اروپا و شهر بولونیا، ایتالیا، که از ۱ آوریل تا ۳۰ سپتامبر ۲۰۱۷ در شهر بولونیا، ایتالیا برگزار شد، جمع آوری شد. هدف این ابتکار ترویج تحرک پایدار با پاداش دادن به مردم (با کوپن برای فروشگاه های محلی) برای ثبت آثار GPS آنها از سفرهای پایدار (به معنای سفرهایی که از طریق حمل و نقل، دوچرخه یا پیاده روی انجام می شود) بود. برای ضبط و جمعآوری دادهها از اپلیکیشن گوشی هوشمند «Betterpoints» [ ۲۰ ] استفاده شد.
مجموعه داده کامل شامل تقریباً ۲۷۰۰۰۰ ردیابی GPS دوچرخه است که از بیش از ۶۲ میلیون نقطه تشکیل شده است— شکل ۱ را ببینید . وقتی دوچرخه در حال حرکت است، برنامه تلفن هوشمند هر ۵ ثانیه یک نقطه GPS را ثبت می کند. هنگامی که دوچرخه متوقف می شود (مثلاً در تقاطع ها)، ضبط متوقف می شود و در نتیجه باتری گوشی هوشمند ذخیره می شود. مطالعه حاضر تنها بر روی ردیابی GPS دوچرخه ثبت شده در طول دوره اوج سفر در طول صبح در روزهای هفته، از ساعت ۷ صبح تا ۱۰ صبح، همانطور که توسط پولیزانی و همکاران استفاده شده است، تمرکز دارد. (۲۰۲۱)، برای شناسایی نوع شناسی دوچرخه سواران [ ۱۸]. ردیابی GPS به هدف خاصی از سفر مرتبط نیست. با این حال، در ساعات اولیه صبح اکثریت قریب به اتفاق سفرهای کاری هستند. به این ترتیب، میتوان بر تفاوتهای تصمیمگیری دوچرخهسوارانی تأکید کرد که در درجه اول باید بین امنیت و زمان سفر تعادل برقرار کنند، اما همچنین سعی میکنند به موقع به مقصد برسند یا از تراکم ترافیک جلوگیری کنند: در واقع، رفتار روزانه سفر و الگوهای سفر تحت تأثیر قرار میگیرند. امنیت سفر [ ۲۱ ]. با این تحلیل، می توان سعی کرد سهم دوچرخه سواران لذت طلب را که از نظر مطالعه حمل و نقل کمتر اهمیت دارند، تحت الشعاع قرار داد.
مراحل پردازش داده زیر با استفاده از محیط SUMOPy [ ۲۲ ] پیاده سازی شده است. در مرحله اول، شبکه نقشه خیابان باز (OSM) که ناحیه شهری بولونیا را پوشش می دهد [ ۲۳ ] به SUMO وارد شده است. این شبکه SUMO دارای ویژگی های غنی است و حاوی اطلاعاتی در مورد عرض جاده، دسترسی به جاده (به عنوان مثال، دوچرخه های رزرو شده، دسترسی مشترک، حضور عابران پیاده، و غیره) و محدودیت های سرعت است. از این ویژگی های اساسی، SUMO یک اولویت جاده (۱-۱۴) را استخراج می کند، که در آن به جاده های با اولویت پایین مقادیر ۱ تا ۷ اختصاص داده می شود. خطاها و بازتولید زیرساخت جاده در سال ۲۰۱۷، همان سال مجموعه داده ردیابی GPS.
در مرحله بعد، ردیابی های غیرواقعی GPS، که به عنوان سفرهای خارج از منطقه مورد مطالعه و ردیابی هایی که احتمالاً هنگام دوچرخه سواری ثبت نشده بودند، تعریف می شوند، حذف شدند. به طور خاص، ردیابی معتبر باید معیارهای زیر را برآورده کند: (۱) طول کل سفر به ترتیب کمتر و بالاتر از حداکثر (۲۵۰۰۰ متر) و حداقل (۱۰۰ متر) مسافت. (۲) مدت زمان کل به ترتیب کمتر و بالاتر از حداکثر (۷۲۰۰ ثانیه) و حداقل (۳۰ ثانیه) مدت زمان. (۳) فاصله بین نقاط متوالی کمتر و بالاتر از حداکثر (۱۰۰۰ متر) و حداقل (۲ متر) فاصله، به ترتیب. (۴) مدت زمان بین نقاط متوالی کمتر از حداکثر مدت زمان (۳۰۰ ثانیه). (۵) سرعت متوسط کمتر و بالاتر از حداکثر (۱۴ میلی ثانیه). ) و حداقل (۱ ms ) سرعت متوسط، به ترتیب؛ (۶) ردیابی GPS حداقل تا حدی در منطقه مورد مطالعه گنجانده شده است. این مرحله فیلتر ردیابی تضمین می کند که ردیابی های GPS را می توان با موفقیت با فرآیند تطبیق نقشه با شبکه جاده مطابقت داد. در طول تطبیق نقشه، محتمل ترین مسیر (به عنوان دنباله ای از پیوندهای شبکه) را می توان برای هر ردیابی GPS شناسایی کرد [ ۲۴ ].
زمان انتظار دوچرخه سواران به طور متوالی با الگوریتم اخیر توسعه یافته در نرم افزار SUMOPy [ ۱۱ ] ارزیابی شده است. اولین بررسی، آثاری را که برای انجام این تحلیل خاص به اندازه کافی دقیق نیستند، از بین می برد.
به طور متوالی، مشخصات سرعت ساعتی برای تمام سفرهای باقی مانده استخراج شده و به مسیر منطبق مرتبط می شود. این کار به گونهای انجام میشود که نه تنها میتوان زمان انتظار سفر، کل زمان سفر و سرعت را تخمین زد، بلکه میتوان آنها را به عناصر شبکه خاص مرتبط کرد: لبهها (یا پیوندها)، اتصالات (یا مانورها) و گرهها ( یا تقاطع ها). به طور خاص، هر بار که دوچرخه سواران کندتر از سرعت متوسط ۱ میلی ثانیه حرکت می کنند، زمان انتظار ثبت می شود بین دو نقطه GPS متوالی که به عنوان سرعت عابر پیاده در نظر گرفته می شود [ ۱۱ ].
۲٫۱٫۲٫ مجموعه داده مانورها
مانور به عنوان شناسه منحصر به فرد ایجاد شده توسط ترکیب یک خط جاده ورودی و خروجی در یک تقاطع جاده تعریف می شود. یک مانور را می توان به طور کلی به عنوان حرکت مستقیم، چرخش به راست، گردش به چپ یا دور برگشت طبقه بندی کرد. به طور کلی، گردش به چپ در معرض تداخل بیشتری با ترافیک است و زمان انتظار بالاتری را ایجاد می کند. برعکس، گردش به راست معمولاً با ترافیک تضادی ندارد. داده های مورد استفاده شامل ۶۰ مانور است که از شبکه جاده ای شهر بولونیا با ۲ معیار اصلی انتخاب شده است: اولین مورد این است که فقط مانورهای مسافرت های زیاد توسط دوچرخه سوارانی که ردیابی GPS نشان داده شده در بخش ۲٫۱٫۱ را ثبت کرده اند در نظر گرفته شود.; به این ترتیب میانگین زمان انتظار ارزیابی شده برای این مانورها و برای سه نوع شناسی دوچرخه سوار بیشتر معرف جمعیت خواهد بود. به طور خاص، روپی و همکاران. (۲۰۲۰) نشان داد که تنها اندازهگیری زمان انتظار حداقل ۱۰۰ دوچرخهسوار میانگین جمعیت را با دقت بازتولید میکند، زیرا مقادیر به دلایل مختلفی به خوبی توزیع میشوند: دوچرخهسوارانی که با قرمز در چراغ راهنمایی عبور میکنند [ ۲۵ ]، وجود جریان مخالف. ، ویژگی های فیزیکی دوچرخه سوار [ ۲۶ ]، احتیاط و رفتار پویا [ ۲۷] و غیره. معیار دوم عبارت است از داشتن مانورهای ناهمگون از هر دو سمت فضا – پراکنده در سراسر منطقه مورد مطالعه – و نوع شناسی – گونه شناسی مانور و وجود چراغ راهنمایی. برای هر مانور، ۶۰ ویژگی از طریق منابع داده های مختلف مربوط به خود مانور، مانورهای متقاطع، و لینک ورودی و خروجی اختصاص داده شده است: نوع شناسی مانور، طول و رتبه، وجود مسیر چرخه، تعداد خطوط پیوند، اولویت پیوند، عرض ها. و جریان ها، وجود چراغ راهنمایی، ویژگی های چراغ راهنمایی، تعامل با گذرگاه عابر پیاده و سایر مانورها، جریان مخالف PCE (معادل خودروی مسافربری)، وجود خطوط اتوبوس و پیچیدگی تقاطع از نظر تعداد مانورهای مجاز. پایگاه داده توسط ۱۷ پیچ به چپ، ۲۴ تقاطع مستقیم و ۱۹ پیچ به راست تشکیل شده است. ۲۹ تای آنها چراغ راهنمایی داشتند،بخش ۲٫۱٫۱ ، ویژگی های زیر به هر مانور برای همه دوچرخه سواران و برای هر یک از سه نوع دوچرخه سوار – RHC (خطرناک و عجولانه)، IIC (بی تجربه و ناکارآمد)، و SIC (حیله گر و آگاه) – پیوست شده است. پولیزیانی و همکاران (۲۰۲۱) [ ۱۸]: تعداد دوچرخه سوارانی که از این مانور استفاده کردند، تعداد دفعات انتظار رخ داده، میانگین زمان انتظار و لیست زمان انتظار. به طور متوسط، هر مانور توسط ۲۱۹ دوچرخه سوار انجام شده است و به طور متوسط ۲۴ دوچرخه سوار زمان انتظار را ثبت کرده اند. میانگین زمان انتظار در مانورهای در نظر گرفته شده ۱٫۹۴ ثانیه با در نظر گرفتن زمان انتظار صفر و ۱۷٫۷ ثانیه تنها با در نظر گرفتن زمان انتظار مثبت بود. سه نوع شناسی دوچرخه سوار، RHG، IIC و SIC، به طور متوسط در مانورهای در نظر گرفته شده به ترتیب در هر ۱۰، هر ۷ و هر ۱۱ گذر زمان انتظار را با میانگین زمان انتظار ۲٫۵۹، ۴٫۸۲ و ۳٫۰۵ ثانیه با در نظر گرفتن صفر ثبت کردند. زمان انتظار
۲٫۱٫۳٫ پاکسازی داده ها و انتخاب ویژگی
پاکسازی داده ها ابتدا با انجام تجمیع ویژگی و سپس انتخاب ویژگی با استفاده از دانش دامنه و روش های ریاضی انجام شد. چارچوب داده اصلی شامل دو ستون برای چندین ویژگی بود، یک ستون مربوط به مانور با چراغ راهنمایی و دیگری برای مانورهای بدون. به این ترتیب، دو ستون برای هر ویژگی دارای سلولهای خالی بودند که در آن ستون دیگر یک ورودی داشت و به سادگی در یک ستون واحد برای تجزیه و تحلیل پایین دست ادغام شدند. علاوه بر این، تنها با در نظر گرفتن فیلتر کردن پیش بینی کننده های قابل توجه میانگین زمان انتظار از دیدگاه مهندسی حمل و نقل، مجموعه اولیه ۱۹ ویژگی ایجاد شد. رگرسیون خطی گام به گام به جلو و عقب در ابتدا برای انتخاب ویژگی ساده و بی تکلف انجام شد. ایده این است که پیشبینیکنندههای مهم در مدل نهایی باقی میمانند در حالی که پیشبینیکنندههای ناچیز باقی نمیمانند. با این حال، تلاشها درجه بالایی از چندخطی بودن را در میان ۱۹ ویژگی نشان داد. برای حذف افزونگی، ابتدا ۹ متغیر که همبستگی واضحی با سایر متغیرها داشتند حذف و سپس ویژگیهای مقولهای و پیوسته باقیمانده به طور جداگانه در نظر گرفته شد. یک ماتریس همبستگی ساده برای سه ویژگی پیوسته (نگاه کنید بهجدول ۱ همبستگی بالایی را نشان نمی دهد، که نشان می دهد موضوع در بین موارد طبقه بندی شده قرار دارد. سه ویژگی پیوسته عبارتند از: (۱) حجم بحرانی، که نشان دهنده مقدار جریان مخالف در تقاطع [ ۲۸ ] است. (۲) میانگین جریان PCE در تقاطع، بر اساس جریانهای PCE اندازهگیری شده در تمام پیوندهایی که وارد تقاطع میشوند: این مقادیر از سوابق دیجیتالی شهر استخراج شدهاند [ ۲۹ ]. (۳) طول مانور بر حسب متر.
تشخیص ارتباط طبقهای با آزمون اندازه اثر فی مربع انجام شد که به صورت تعریف شده است ، جایی که مقدار، آمار آزمون از آزمون استقلال – جدول ۲ را ببینید .
مقدار آستانه از به این نتیجه رسیدند که دو ویژگی مقوله ای وابسته به هم هستند . این سه جفت ویژگی وابسته را به همراه داشت: ویژگیهای ۴ و ۵، ۴ و ۶، و ۵ و ۶٫ ویژگیهای ۴ و ۶ بر اساس اهمیت حملونقل حذف شدند و ۸ پیشبینیکننده نهایی باقی ماندند. به طور خاص، متغیرهای دسته بندی باقی مانده به ترتیب هستند: (۱) نوع شناسی مانور (چرخش به چپ، گردش به راست، مستقیم). (۲) خطوط لبه به (تعداد خطوط در جاده ای که مانور به سمت آنها هدایت می شود). (۳) چراغ راهنمایی (درست یا نادرست)؛ (۴) تعداد مانورهای عبور شده (تعداد مانور میانی عبور شده در تقاطع). (۵) گره اتصالات (تعداد کل مانورها در تقاطع جغرافیایی). سپس ویژگی به نام مانورهای متقاطع بر اساس شکل ۲ اصلاح شد . برای کاهش پیچیدگی مدل، مقادیر ۱ و ۲ ادغام شدند و به عنوان ۱ کدگذاری شدند، در حالی که مقادیر ۳ و بالاتر ادغام شدند و به عنوان ۲ کدگذاری شدند.جدول ۳ شرحی از ۸ ویژگی نهایی را ارائه می دهد که برای برازش مدل استفاده می شود.
۲٫۲٫ انتخاب مدل
روشهای طبقهبندی رگرسیون جنگل تصادفی و ماشین بردار پشتیبان هسته گاوسی (SVM) در ابتدا قبل از حل و فصل رگرسیون ناپارامتریک انجام شد. انتخاب مدل فقط بر روی نوع شناسی دوچرخه سوار RHC انجام شد زیرا هر سه نوع شناسی از معماری مدل یکسانی استفاده خواهند کرد. تمامی محاسبات با نرم افزار محاسباتی R [ ۳۰ ] انجام شد.
۲٫۲٫۱٫ رگرسیون تصادفی جنگل
رگرسیون تصادفی جنگل [ ۳۱ ] توسعه طبقه بندی جنگل تصادفی برای رسیدگی به یک پاسخ پیوسته است که از مجموعه ای از درختان رگرسیون استفاده می کند. یک درخت رگرسیون منفرد فضای ویژگی را از طریق یک سری تقسیمات دودویی ویژگی تقسیم می کند که مجموع باقیمانده مربع ها را به حداقل می رساند که به صورت زیر تعریف می شود:
جایی که و میانگین های پاسخ به چپ و راست یک تقسیم باینری هستند. تقسیمها تا زمانی انجام میشوند که یک معیار توقف برآورده شود، که برای این پیادهسازی، حداقل تعداد مشاهدات در یک گروه برای تعیین یک گره پایانی است. جنگل تصادفی بر روی یک درخت رگرسیون منفرد با آموزش درختان T بر روی تکرارهای بوت استرپ داده های اصلی و استفاده از یک زیرمجموعه تصادفی بهبود می یابد. ویژگی های آموزش هر درخت هر یک از درختان T یک پیش بینی برای مشاهدات من ایجاد می کند ، و پیش بینی نهایی مدل میانگین تمام پیش بینی ها یا . پارامترهای T و حداقل مشاهدات در یک گره پایانه برای بهینه بودن با بسته R randomForest [ ۳۲ ] تنظیم شدند. مدلهای ساخته شده برای مقادیر T بین ۱۰ و ۴۰۰ در افزایش ۱۰، ۶۰ درخت را نشان دادند که میانگین مربعات خطا (MSE) و پیچیدگی مدل را به حداقل میرسانند و با تغییر حداقل مقدار گره پایانه بین ۱ و ۱۰، ۱ را بهعنوان MSE-بهینه با مقدار ۱٫۹۶ شناسایی میکردند. با این حال، بررسی دستی ۶۰ میانگین زمان انتظار پیشبینیشده، انحرافات زیادی از زمانهای واقعی نشان داد، بنابراین مدل دقیقتری مورد نظر بود.
۲٫۲٫۲٫ SVM هسته گاوسی
SVM [ ۳۳ ] یک روش طبقه بندی باینری است که به دنبال یافتن بردار نرمال است و افست b از هایپرپلان که به بهترین وجه این دو کلاس را از هم جدا می کند. این امر با بهینهسازی از طریق برنامهریزی درجه دوم انجام میشود، که نقاط مرزی هر کلاس را که به عنوان بردارهای پشتیبانی شناخته میشوند، برای ایجاد صفحه مذکور مشخص میکند. SVM هسته گاوسی با استفاده از تابع هسته گاوسی SVM استاندارد را بهبود می بخشد. برای نمایش داده ها از فضای اصلی به فضای ویژگی های با ابعاد بالاتر برای تفکیک بهتر. سپس یافتن ابر صفحه بهینه به حل برنامه درجه دوم زیر کاهش می یابد:
موضوع به و ، که در آن C پارامتر تنظیم و ، که برای دو کلاس کد می کند. یک مشاهده جدید را می توان با قاعده تصمیم طبقه بندی کرد ، جایی که b را می توان با معادله تعیین کرد ، جایی که هر بردار پشتیبان است. برای پیاده سازی SVM هسته گاوسی برای طبقه بندی، ابتدا پاسخ پیوسته مطابق جدول ۴ به ۳ کلاس گسسته شد .
هدف از طرح گسسته سازی حفظ تعادل بود که محقق شد. سپس یک تقسیم قطار/آزمایش ۴۸ به ۱۲ با یک دانه انتخاب شد و پارامترهای منظم سازی و گاما برای بهینه بودن با بسته R e1071 [ ۳۴ ] تنظیم شدند، که دقت کاملی را برای آن تقسیم قطار/آزمایش خاص به دست آورد. به منظور ارزیابی حساسیت مدل به تقسیم، ۱۰۰ تکرار بدون دانه برای تقسیم اجرا شد، که مقادیر دقت را از ۰٫۷۵ تا ۱٫۰۰ کامل به دست آورد، که نشاندهنده درجهای از حساسیت احتمالاً به دلیل تعداد کم نقاط داده است. علاوه بر این، گسسته کردن میانگین زمان انتظار برای حفظ تعادل منجر به از دست دادن اطلاعات بزرگ می شود زیرا پاسخ دارای مقادیر بالای ۱۷ بود.
۲٫۳٫ رگرسیون ناپارامتری هسته
رگرسیون ناپارامتری هسته [ ۳۵ ] راهی برای حفظ ماهیت پیوسته میانگین زمان انتظار در حالی که انعطافپذیری لازم را در هنگام برخورد با مشاهدات محدود حفظ میکند، ارائه کرد. هدف از رگرسیون هسته تخمین رابطه تجربی بین و Y ، کجا ، با تعداد p متغیرها، بردار تصادفی ویژگی ها است و Y میانگین زمان انتظار [ ۳۶ ] است. این از طریق استفاده از برآوردگر Nadaraya-Watson، که در R در بسته np پیاده سازی شده است، انجام شد [ ۳۷ ]. برآوردگر چند متغیره زمان انتظار در مورد یک مکان با ارزش برداری ، ، به عنوان … تعریف شده است:
برآوردگر نادارایا-واتسون فقط با متغیرهای پیوسته قابل استفاده است. با این حال، ویژگی ها از نوع شناسی مختلط هستند. بنابراین، مسئله مستلزم تعمیم این برآوردگر است. برای انواع مختلف متغیرها می توان از انواع مختلفی از هسته ها استفاده کرد. هسته مورد استفاده برای ویژگی های پیوسته، هسته گاوسی با فرمول است برای داده های تک متغیره برآوردگر چگالی هسته چند متغیره پیوسته به صورت زیر است:
ماهیت چند متغیره داده مستلزم ساختار داده با ارزش ماتریسی از پهنای باند مشخص شده است. ، که تفسیری مشابه ماتریس کوواریانس در توزیع گاوسی چند متغیره در هنگام استفاده از هسته گاوسی دارد. تخمین چگالی را می توان با جایگزین کردن تابع هسته با هسته مقیاس پهنای باند که به صورت نشان داده شده است، ساده کرد. تسلیم شدن ، با تعداد متغیرهای پیوسته هر پهنای باند اسکالر پهنای باند هر ویژگی پیوسته را نشان می دهد. برای سادگی محاسباتی، مورب فرض می شود. یعنی هر ویژگی در محاسبه پهنای باند مستقل فرض می شود، بنابراین پهنای باند زوجی صفر است.
هسته Aitchison و Aitken [ ۳۸ ] برای این مورد استفاده شد متغیرهای اسمی با سطوح و به این صورت تعریف می شود:
جایی که پهنای باند است. این ویژگی های ترتیبی با لی و هسته راسین [ ۳۹ ] به صورت زیر تعریف می شوند:
جایی که پهنای باند است. با توابع توزین هسته که برای ویژگی های پیوسته، اسمی و ترتیبی تعریف شده اند، برآوردگر تعمیم یافته نادارایا-واتسون برای داده های ترکیبی را می توان به صورت زیر بیان کرد:
بر اساس هسته محصول مخلوط:
۲٫۴٫ انتخاب پهنای باند
انتخاب پهنای باند بر اساس روش اعتبار سنجی متقاطع حداقل مربعات یک خروجی [ ۴۰ ] انجام شد، که برای رسیدگی به مسائلی که با انتخاب پهنای باند از طریق به حداقل رساندن ساده مجموع باقیمانده مربع ها ایجاد می شود، ایجاد شد. حداقل مربعات خطای اعتبار متقاطع به صورت زیر تعریف می شود:
جایی که زیرنویس نشان دهنده مقدار i است که حذف شده است، و پهنای باند بهینه مقادیری هستند که خطا را به حداقل می رساند، یا . بسته np R این روش را با جستجوی شبکه brute-force همراه با پنج مقدار دهی اولیه متفاوت پیاده سازی می کند و نتیجه را با کمترین خطای اعتبارسنجی متقاطع برمی گرداند.
۲٫۵٫ بوت استرپینگ
بوت استرپینگ برای اندازه گیری تغییرپذیری برآوردگر استفاده شد، که راه حل های شکل بسته مانند برآوردگر نادارایا-واتسون وجود ندارد. علاوه بر این، بوت استرپینگ را می توان به عنوان اعتبار متقاطع در نظر گرفت به این معنا که به طور خودکار داده ها را به یک مجموعه آموزشی و آزمایشی تبدیل می کند و راهی برای بررسی قدرت پیش بینی یک مدل در زمانی که مشاهدات خاصی از مرحله آموزش کنار گذاشته می شوند، فراهم می کند.
به طور رسمی، bootstrapping یک روش نمونهگیری مجدد است که در آن نقاط داده از مجموعه دادههای اصلی برای تولید یک تکرار بوت استرپ نمونهبرداری میشوند [ ۴۱ ]. به عنوان مثال، با ماتریس داده اصلی شامل مشاهدات بردار p- بعدی است ، نمونه در میان با جایگزینی n بار برای به دست آوردن یک تکرار بوت استرپ که نشان داده شده است ، جایی که نشان دهنده i امین نمونه است. سپس آمار مورد نظر از آن محاسبه می شود ، و کل فرآیند برای تولید تکرارهای بوت استرپ جدید و آمار مربوطه تکرار می شود. سپس با استفاده از تکرارهای آماری می توان استنباط مناسب گرفت. با این پروژه مشاهدات، وجود دارد تکرارهای احتمالی بوت استرپ، بنابراین یک بوت استرپ کامل که در آن تمام تکرارهای ممکن در نظر گرفته شود، از نظر محاسباتی غیرممکن است. به این ترتیب، یک زیر مجموعه تصادفی از ۱۰۰۰ تکرار استفاده شد که به عنوان بوت استرپ مونت کارلو شناخته می شود. این واقعیت که تکرارهای بوت استرپ از طریق نمونه گیری با جایگزینی تولید می شوند به این معنی است که هر یک از n مشاهدات دارای یک شانس انتخاب شدن در هر مرحله نمونه برداری، بنابراین هر مرحله نمونه برداری مستقل از مراحل دیگر است. این اجازه می دهد تا درصد مشاهداتی که در هر تکرار باقی مانده اند، کمی سازی شوند. یک تکثیر بوت استرپ را در نظر بگیرید که شامل نمونه برداری از n مشاهده n بار است. احتمال کنار گذاشته شدن یک مشاهده دلخواه من است . به این ترتیب، به طور متوسط از ، یا درصد، از تمام مشاهدات از هر تکرار بوت استرپ معین حذف می شود، به طور موثر داده های اصلی را به مجموعه های آموزشی (شامل مشاهدات) و آزمایش (مشاهدات حذف شده) تقسیم می کنند. بنابراین، بوت استرپ برآوردگر نادارایا-واتسون اجازه می دهد تا تنوع و استحکام آن مورد بررسی قرار گیرد.
۳٫ نتایج
جدول ۵ خلاصه ای از سه مدل را نشان می دهد که هر کدام مربوط به یک نوع شناسی دوچرخه سوار است.
جدول ۵ شامل پهنای باند تأیید متقابل بهینه برای هر ویژگی است که قبلاً در جدول ۳ شناسایی شده است. ویژگی ۳، وجود چراغ راهنمایی، اسمی با ۲ سطح است، یعنی محدوده پهنای باند آن است. ، جایی که تعداد سطوح را نشان می دهد. این واقعیت که مدلهای تیپولوژی دوچرخه سواران ۱ و ۳ دارای پهنای باند هستند یعنی هسته Aitchison و Aitken برای ویژگیهای اسمی وزن یکسانی را به آن اختصاص میدهد بدون توجه به سطح بنابراین، وجود چراغ راهنمایی هنگام پیشبینی میانگین زمان انتظار برای گونهشناسیهای ۱ و ۳، هیچ اطلاعاتی را ارائه نمیدهد. همین مشاهدات را میتوان با ویژگی ۱، نوعشناسی مانور و مدل برای IIC انجام داد. نوع شناسی مانور دارای سه سطح و محدوده پهنای باند است و در نتیجه به پیش بینی میانگین زمان انتظار برای IIC کمکی نمی کند. ویژگی ۲، لبه خطوط به، دارای پهنای باند برابر با ۱ برای مدل RHC است، که حد بالایی محدوده پهنای باند یک ویژگی ترتیبی است. . این بدان معناست که هسته لی و راسین برای ویژگیهای ترتیبی وزن یک را بدون توجه به سطح تعیین میکند، که میتواند به معنای لبه خطوط تفسیر شود که حاوی اطلاعاتی نیست که به پیشبینی میانگین زمان انتظار کمک کند. همه ویژگیهای طبقهبندی دیگر در جایی در محدودههای مربوطه خود دارای پهنای باند هستند، که بزرگی آن وزنی را که یک مشاهده در هنگام پیشبینی میانگین زمان انتظار در هر نقطهای با خود حمل میکند، تعیین میکند. ویژگی های ۶، ۷ و ۸ ماهیت پیوسته دارند و تفسیر پهنای باند کمی متفاوت دارند. پهنای باند شبیه به پارامتر است در فرمول توزیع گاوسی زیرا گسترش توزیع و در نتیجه وزن های اختصاص داده شده به مشاهدات را کنترل می کند. پهنای باند کوچک وزن های بزرگی را به مشاهدات نزدیک به نقطه تخمین و وزن های کوچک به مشاهدات دور اختصاص می دهد، در حالی که پهنای باند بزرگ تاکید بیشتری بر نقاط دورتر دارد. لازم به ذکر است که هسته گاوسی همچنان وزن های سنگین تری را به نقاط نزدیک حتی با پهنای باند زیاد اختصاص می دهد. پهنای باند ویژگی ۶ (حجم بحرانی) در مدل IIC بسیار بزرگتر از بقیه است، که می توان چنین تفسیر کرد که حجم بحرانی کمک زیادی به پیش بینی میانگین زمان انتظار نمی کند، زیرا پهنای باند عظیم وزن های مشابهی را به همه مشاهدات اختصاص می دهد. بدون توجه به فاصله جدول ۶ شامل هر مدل است و . هر مدل دارای یک بالا است و کم ، نشان می دهد که منحنی رگرسیون ناپارامتریک به خوبی با داده ها مطابقت دارد. قدرت مدل انتخاب شده در مقایسه با رگرسیون تصادفی جنگل با ۶۰ درخت که دارای یک ۱٫۴۰ و میانگین میانگین انحراف بین مقادیر پیش بینی شده و واقعی . رگرسیون هسته نیز نسبت به SVM هسته گاوسی برتر است، که حساسیت به تقسیم قطار/آزمایش را نشان داد و از طریق گسسته سازی مورد نیاز میانگین زمان انتظار باعث از دست دادن اطلاعات زیادی شد. علاوه بر این، بررسی خطاهای استاندارد بوت استرپ نشان میدهد که قدرت پیشبینی رگرسیون ناپارامتریک برای اکثر مشاهدات حتی زمانی که از فاز برازش خارج میشوند، قوی است. بیشتر مانورهایی که میانگین زمان انتظار پیشبینیشده بهطور قابلتوجهی بیشتر از صفر است، خطاهای استاندارد نسبتاً کوچکی دارند، که نشان میدهد مدلهای ساختهشده از تکرارهای بوت استرپ برای همه ۱۰۰۰ تکرار، دقت معقولی در سراسر تخته داشتند.
برآورد نادارایا-واتسون برای هر نوع شناسی و هر مانور در ضمیمه جدول بندی شده است ( جدول A1 و جدول A2 را ببینید ) با خطاهای استاندارد بوت استرپ در پرانتز.
تفاوت های قابل توجهی بین میانگین زمان انتظار پیش بینی شده برای هر نوع شناسی وجود دارد ( جدول A1 و جدول A2 را ببینید). این نتایج با پولیزانی و همکاران همخوانی دارد. (۲۰۲۱) [ ۱۸]: دوچرخهسواران IIC (بیتجربه و ناکارآمد) زمان بیشتری را در انتظار صرف میکنند که نشاندهنده بیتجربه بودن آنها است. زمان انتظار برای RHC (خطرناک و عجولانه) و SIC (حیله گر و آگاه) قابل مقایسه است، اما رفتارهای مخاطره آمیز نشان داده شده توسط RHC ممکن است مقادیر کمی پایین تر را توضیح دهد. انتخاب ویژگی نشان داد که هشت ویژگی پیشبینیکنندههای لازم و کافی برای میانگین زمان انتظار هستند. تقریباً همه متغیرها را می توان به راحتی برای همه مانورها شناسایی کرد، جدای از جریان PCE و حجم بحرانی، که در صورت ناشناخته بودن نیاز به بررسی های گران قیمت در محل دارند.
علیرغم استحکام کلی این مدل، با مانورهایی که زمان انتظار آنها نزدیک به صفر است، مشکل دارد. بارزترین مسئله در اینجا مربوط به مانورهایی مانند مانور ۲۶ است ( جدول A1 را ببینید )، که در آن خطای استاندارد بوت استرپ بزرگتر از زمان انتظار پیش بینی شده است، که نشان می دهد مدل های خاصی که با تکرارهای بوت استرپ ساخته شده اند، زمان انتظار منفی را پیش بینی می کنند. این مشکل را می توان با تنظیم یک کران پایین برای میانگین زمان انتظار در ۰ حل کرد که باعث کاهش تغییرات و بهبود استحکام می شود.
۴٫ نتیجه گیری
مدل جدیدی کالیبره شده است که به ما امکان می دهد زمان انتظار دوچرخه سواران را در مانورهای خیابانی مختلف در تقاطع ها برای سه نوع شناسی دوچرخه سوار متفاوتی که قبلاً شناسایی شده بود تخمین بزنیم : میانگین زمان انتظار سه نوع شناسی دوچرخه سوار با آنها مطابقت دارد. تعیین مشخصات. برخی از مطالعات اخیر تاکید کرده اند که ویژگی زمان برای سفرهای کاری و تحصیلی دوچرخه سواران غالب است: اگرچه زمان سفر دوچرخه سواران به ویژه تحت تأثیر ازدحام قرار نمی گیرد، زمان انتظار در تقاطع ها در طول مسیر به طور قابل توجهی بر زمان سفر تأثیر می گذارد [ ۱ ، ۱۰ ]]. این تحقیق کمک عملی به ارزیابی زمانهای انتظار ارائه میکند و به این نتیجه میرسد که آنها برای طراحی و مدیریت شبکههای چرخه ضروری هستند. در واقع، زمان انتظار تخمین زده شده می تواند یک ویژگی معتبر در مدل انتخاب مسیر برای دوچرخه سواران باشد، زیرا زمان انتظار سهم قابل توجهی از زمان سفر در محیط های شهری را به خود اختصاص می دهد. علاوه بر این، مطالعه حاضر نشان میدهد که چگونه گونهشناسیهای مختلف دوچرخهسوار همه ویژگیهای مهمی را که بر زمان انتظار آنها تأثیر میگذارند، متفاوت درک میکنند. این اطلاعات همچنین ممکن است به بهبود مدل های انتخاب مسیر دوچرخه سواران کمک کند.
باید کار بیشتری برای برون یابی این مدل به شهرهای دیگر انجام شود که در آن دوچرخه سواران ممکن است تمایلات متفاوتی از خود نشان دهند و پیش بینی ها را با داده های دیگر آزمایش کنند. به طور کلی، مطالعات آینده همچنین باید یک مدل انتخاب مسیر جدید برای دوچرخه سواران از جمله تأثیر زمان انتظار، و همچنین گونه شناسی دوچرخه سوار، برای مثال، با استفاده از برآوردگرهای ارائه شده در این مقاله، طراحی کند.