کلید واژه ها:
پیش بینی مسیر ; ترانسفورماتور ؛ مکانیسم توجه ؛ GRU ; رانندگی مستقل
۱٫ مقدمه
-
یک مدل مبتنی بر ترانسفورماتور مبتنی بر تعامل فضایی برای ضبط و ادغام موثر وابستگیهای زمانی مسیرها و تعاملات فضایی بین وسایل نقلیه پیشنهاد شدهاست.
-
رمزگشایی که ارسال پیام را برای همه وسایل نقلیه در نظر می گیرد برای مدل سازی تعاملات احتمالی آینده بین وسایل نقلیه مشاهده شده استفاده می شود.
۲٫ بررسی ادبیات
۲٫۱٫ پیش بینی توالی
۲٫۲٫ مدل سازی تعامل فضایی
۳٫ فرمول مسئله
همانطور که در بالا توضیح داده شد، ورودی های X مدل ما، مسیرها و سرعت های تاریخی همه وسایل نقلیه مشاهده شده هستند. مراحل زمانی:
جایی که
مختصات را نشان می دهد و سرعت ها از تمام وسایل نقلیه در صحنه مشاهده شده در زمان t . n تعداد وسایل نقلیه مشاهده شده است. خروجیهای Y مدل ما، سرعتهای آینده پیشبینیشده همه وسایل نقلیه مشاهدهشده از مرحله زمانی است به ، و افق پیش بینی شده است:
جایی که
۴٫ روش شناسی
۴٫۱٫ ماژول پیش پردازش ورودی
۴٫۱٫۱٫ نمایش ورودی
۴٫۱٫۲٫ ساخت نمودار فضایی
در هر مرحله زمانی t ، یک برهمکنش فضایی تنها زمانی اتفاق می افتد که فاصله فعلی بین دو جسم از یک آستانه کوتاهتر باشد. و این دو شی در خطوط مجاور هستند، به عنوان مثال، . برای کارایی محاسبات، میتوانیم نشان دهیم به عنوان یک ماتریس مجاورت . بنابراین، در هر مرحله زمانی t ،
که در آن n تعداد وسایل نقلیه مشاهده شده است. با توجه به n وسیله نقلیه مسیر مشاهده شده با طول مراحل زمانی، ما می توانیم ماتریس های مجاورت را بدست آوریم همانطور که در بالا توضیح داده شد. این ماتریس های مجاورت بخشی از ورودی های مدل ما هستند.
۴٫۲٫ ترانسفورماتور آگاه از تعامل فضایی
۴٫۲٫۱٫ جاسازی
علامت گذاری می کنیم و این شبکه جاسازی را اعمال کنید نقشه برداری ، که وضعیت جسم i را در مرحله زمانی t ، به یک نمایش پنهان نشان می دهد ، که در آن مختصات و سرعت با هم متحد می شوند تا کار مدل سازی زمینه بعدی آسان شود:
جایی که وزن تعبیه شده است. این مقاله از یک پرسپترون چند لایه (MLP) به عنوان شبکه جاسازی استفاده می کند .
۴٫۲٫۲٫ رمزگذاری موقعیتی
۴٫۲٫۳٫ ماژول توجه چند سر زمانی
مشابه لایه رمزگذار ترانسفورماتور استاندارد، SIT از یک ماژول توجه چند سر پوشانده استفاده می کند تا وابستگی زمانی مسیر هر وسیله نقلیه را به طور مستقل ثبت کند. این ماژول توجه پوشانده مانع از حضور مراحل بعدی در مراحل بعدی می شود. با توجه به ورودی ، ماژول توجه ابتدا ماتریس های پرس و جو را محاسبه می کند ، ماتریس های کلیدی و ماتریس های مقدار . برای i- امین وسیله نقلیه، ما محاسبه می کنیم
جایی که ، و توابع مربوط به پرس و جو، کلید و ارزش به اشتراک گذاشته شده توسط وسایل نقلیه هستند ; و ، . برای مسیر وسیله نقلیه i ، همانطور که در شکل ۳ a نشان داده شده است، پیام عبور از مرحله زمانی s به t را به صورت تعریف می کنیم.
سپس، توجه پوشانده شده را برای وسیله نقلیه i در مرحله زمانی t به صورت زیر محاسبه می کنیم:
جایی که نشان می دهد که مرحله فعلی فقط می تواند به مراحل قبلی خود دسترسی داشته باشد. به طور مشابه، ما می توانیم توجه چند سر پوشانده شده ( k سر) را برای وسیله نقلیه i برای گام زمانی t بدست آوریم :
جایی که یک لایه کاملا متصل است که اطلاعات k heads را ادغام می کند. پس از محاسبه توجه چند سر برای هر وسیله نقلیه و هر مرحله زمانی ، ما بدست می آوریم ، که حاوی اطلاعات زمانی استخراج شده از مسیرهای تاریخی است.
۴٫۲٫۴٫ شبکه توجه چند سر نمودار فضایی
مکانیسم توجه به خود را می توان به عنوان پیامی در نظر گرفت که روی یک گراف کاملاً متصل بدون جهت می دهد. برای یک گام زمانی t ، می توانیم n ویژگی وسیله نقلیه را بدست آوریم از T و بردار پرس و جو متناظر، بردار کلید و بردار مقدار را به ترتیب نشان می دهد ، و . مشابه بخش ۴٫۲٫۳ ، ما محاسبه می کنیم
و پیام عبور از وسیله نقلیه j به i را در نمودار کاملاً متصل به صورت تعریف کنید
سپس توجه در مرحله زمانی t را می توان به صورت محاسبه کرد
با این حال، در نظر گرفتن تعاملات فضایی بین وسایل نقلیه به عنوان یک نمودار کاملاً متصل ناکارآمد است. بنابراین، ما از ماتریسهای مجاورت A برای جایگزینی نمودار کاملاً متصل بالا استفاده میکنیم، که تضمین میکند پیام از وسیله نقلیه j به i در یک مرحله زمانی t تنها زمانی که فاصله فعلی این دو وسیله کوتاهتر از یک آستانه باشد، منتقل میشود. و دو وسیله نقلیه در خطوط مجاور هستند، همانطور که در شکل ۳ ب نشان داده شده است. سپس می توانیم محاسبه توجه وسیله نقلیه i را در مرحله زمانی t بازنویسی کنیم :
جایی که مجموعه همسایه وسیله نقلیه i را نشان می دهد. به طور مشابه، ما می توانیم توجه چند سر ( k سر) وسیله نقلیه i را برای گام زمانی t بدست آوریم :
جایی که یک لایه کاملا متصل است که اطلاعات k heads را ادغام می کند. پس از محاسبه توجه چند سر برای هر وسیله نقلیه و هر مرحله زمانی ، ما بدست می آوریم که حاوی اطلاعات تعامل استخراج شده بین خودروهای مشاهده شده است. ما چندین لایه SIT را برای گرفتن اطلاعات زمانی و مکانی پیچیدهتر و انتزاعیتر روی هم قرار میدهیم.
۴٫۳٫ ماژول پیش بینی مسیر
۴٫۴٫ جزئیات پیاده سازی
کد ما با استفاده از کتابخانه PyTorch [ ۳۴ ] پیاده سازی می شود، ما مدل خود را به عنوان یک کار رگرسیونی آموزش می دهیم. زیان کلی را می توان به صورت زیر محاسبه کرد:
جایی که تعداد مرحله زمانی است که باید در آینده پیش بینی شود، و به ترتیب موقعیت ها و حقیقت زمین در گام زمانی t پیش بینی می شوند. ما با استفاده از مدل آموزش می دهیم [ ۳۵ ] بهینه ساز با ، ، و . میزان یادگیری است . تنظیم کردیم در طول آموزش ما برای تسریع در همگرایی از اجبار معلم در آموزش استفاده می کنیم.
۵٫ ارزیابی تجربی
۵٫۱٫ تنظیمات آزمایشی
۵٫۱٫۱٫ مجموعه داده
۵٫۱٫۲٫ معیارهای ارزیابی
ما از معیارهای ارزیابی مشابه با روشهای دیگر استفاده میکنیم [ ۲ ، ۱۸ ] و نتایج ارزیابی خود را بر اساس ریشه میانگین مربعات خطا گزارش میکنیم. ) از مسیرهای آینده پیش بینی شده برای هر مرحله زمانی در افق پیش بینی ۵ ثانیه. را در مرحله زمانی t را می توان به صورت زیر محاسبه کرد:
که در آن m تعداد وسایل نقلیه در مجموعه داده آزمایشی است، و به ترتیب موقعیت ها و حقیقت زمین در گام زمانی t پیش بینی می شوند.
۵٫۲٫ مطالعه ابلیشن
۵٫۲٫۱٫ آزمایشهای فرسایشی روی آستانههای همسایه
۵٫۲٫۲٫ آزمایشهای فرسایشی در مدل پیشنهادی
۵٫۳٫ مدل های مقایسه شده
-
سرعت ثابت (CV) [ ۲ ]: این روش به سادگی از فیلتر کالمن با سرعت ثابت برای پیش بینی مسیرها استفاده می کند.
-
Vanilla LSTM (V-LSTM) [ ۲ ]: این رویکرد تعاملات را در نظر نمی گیرد و از ساختار رمزگذار-رمزگر مبتنی بر LSTM برای پیش بینی استفاده می کند.
-
LSTM با ادغام اجتماعی کاملاً متصل (S-LSTM) [ ۱۳ ]: متفاوت از V-LSTM، این کار مسیرهای تاریخی وسایل نقلیه اطراف هدف را در بر می گیرد و از یک لایه کاملاً متصل برای ترکیب نمایش های رمزگذاری شده وسیله نقلیه هدف و اطراف آن استفاده می کند. وسایل نقلیه در رمزگشایی
-
LSTM با ادغام اجتماعی کانولوشنال (CS-LSTM) [ ۲ ]: این روش از لایه ادغام اجتماعی کانولوشنی برای در نظر گرفتن تعاملات بین هدف و وسایل نقلیه اطراف آن بر اساس یک شبکه فضایی استفاده می کند. خروجی توزیع مسیر تک وجهی است.
-
CS-LSTM(M) [ ۲ ]: متفاوت از CS-LSTM، این مدل توزیع مسیر چندوجهی مبتنی بر مانور را خروجی میدهد. حالت با بیشترین احتمال برای ارزیابی استفاده می شود.
-
شبکه توجه آگاه از متن پویا و ایستا (DSCAN) [ ۱۸ ]: این روش از مکانیزم توجه برای تصمیم گیری اینکه کدام وسایل نقلیه اطراف برای وسیله نقلیه هدف اهمیت بیشتری دارند استفاده می کند و با استفاده از یک شبکه محدودیت، اطلاعات محیط را در نظر می گیرد.
۵٫۴٫ نتایج مقایسه شده
۵٫۵٫ تجسم نتایج پیش بینی
۵٫۶٫ تجزیه و تحلیل توزیع توجه
۶٫ نتیجه گیری
-
مدل مبتنی بر SIT پیشنهادی میتواند مسیر را با دقت بیشتری نسبت به سایر خطوط پایه، به ویژه برای پیشبینی بلندمدت و در موقعیتهای بسیار تعاملی پیشبینی کند. زیرا تعاملات بین وسایل نقلیه را هم در مرحله رمزگذاری و هم در مرحله رمزگشایی در نظر می گیرد.
-
لایههای SIT پیشنهادی میتوانند به طور موثر وابستگیهای زمانی مسیرها و تعاملات فضایی بین وسایل نقلیه را هنگام رمزگذاری ضبط و ادغام کنند. در مطالعه فرسایشی، لایههای SIT کاهش میدهند ارزش ۲۵٫۸٪ در مقایسه با لایه های ترانسفورماتور استاندارد.
منابع
- مظفری، س. الجراح، OY; دیانتی، م. جنینگز، پی. Mouzakitis، A. پیشبینی رفتار خودرو مبتنی بر یادگیری عمیق برای برنامههای رانندگی خودکار: مروری. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۲۲ ، ۲۳ ، ۳۳-۴۷٫ [ Google Scholar ] [ CrossRef ]
- دیو، ن. Trivedi، MM ادغام اجتماعی کانولوشن برای پیشبینی مسیر خودرو. در مجموعه مقالات کنفرانس IEEE/CVF 2018 در کارگاه های آموزشی بینایی و تشخیص الگوی کامپیوتری (CVPRW)، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۲ ژوئن ۲۰۱۸؛ IEEE: سالت لیک سیتی، UT، ایالات متحده آمریکا، ۲۰۱۸؛ صفحات ۱۵۴۹-۱۵۴۹۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- واسوانی، ع. Shazeer, N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، ال. Polosukhin، I. توجه تمام چیزی است که شما نیاز دارید. arXiv ۲۰۱۷ ، arXiv:abs/1706.03762. [ Google Scholar ]
- یو، سی. ما، ایکس. رن، جی. ژائو، اچ. یی، S. شبکه های ترانسفورماتور نمودار فضایی-زمانی برای پیش بینی مسیر عابر پیاده. در Computer Vision-ECCV 2020 ؛ Vedaldi, A., Bischof, H., Brox, T., Frahm, JM, Eds. انتشارات بین المللی Springer: Cham، سوئیس، ۲۰۲۰; جلد ۱۲۳۵۷، ص ۵۰۷–۵۲۳٫ [ Google Scholar ] [ CrossRef ]
- پانگ، ی. ژائو، ایکس. هو، جی. یان، اچ. لیو، Y. بیزی شبکه ترانسفورماتور نمودار فضایی-زمانی (B-Star) برای پیشبینی مسیر چند هواپیما. در دسترس آنلاین: https://ssrn.com/abstract=3981312 (در ۳۰ دسامبر ۲۰۲۱ قابل دسترسی است).
- چانگ، جی. گلچهره، سی. چو، ک. Bengio، Y. ارزیابی تجربی شبکههای عصبی بازگشتی دروازهای در مدلسازی توالی. arXiv ۲۰۱۴ ، arXiv:1412.3555. [ Google Scholar ]
- هوکرایتر، اس. اشمیدهابر، جی. حافظه کوتاه مدت طولانی. محاسبات عصبی ۱۹۹۷ ، ۹ ، ۱۷۳۵-۱۷۸۰٫ [ Google Scholar ] [ CrossRef ]
- لی، ایکس. یانگ، ایکس. Chuah، MC GRIP: پیشبینی مسیر مبتنی بر تعامل-آگاه. در مجموعه مقالات کنفرانس سیستم های حمل و نقل هوشمند IEEE 2019 (ITSC)، اوکلند، نیوزیلند، ۲۷ تا ۳۰ اکتبر ۲۰۱۹؛ صص ۳۹۶۰–۳۹۶۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- جولیاری، ف. حسن، من. کریستانی، م. گالاسو، F. شبکه های ترانسفورماتور برای پیش بینی مسیر. arXiv ۲۰۲۰ ، arXiv:2003.08111. [ Google Scholar ]
- ممکن است.؛ زو، ایکس. ژانگ، اس. یانگ، آر. وانگ، دبلیو. منوچا، دی. arXiv ۲۰۱۹ ، arXiv:1811.02146. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- چاندرا، آر. باتاچاریا، U. برا، ا. Manocha، D. TraPHic: پیشبینی مسیر در ترافیک متراکم و ناهمگن با استفاده از تعاملات وزنی. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ IEEE: لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۲۰۱۹؛ صص ۸۴۷۵-۸۴۸۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- دیو، ن. Trivedi، MM پیش بینی مسیر چند وجهی وسایل نقلیه اطراف با LSTM های مبتنی بر مانور. در مجموعه مقالات سمپوزیوم وسایل نقلیه هوشمند IEEE 2018 (IV)، چانگشو، چین، ۲۶ تا ۳۰ ژوئن ۲۰۱۸؛ صص ۱۱۷۹–۱۱۸۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- الهی، ع. گوئل، ک. راماناتان، وی. Robicquet، A. فی فی، ال. Savarese، S. Social LSTM: پیش بینی مسیر انسان در فضاهای شلوغ. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده آمریکا، ۲۷ تا ۳۰ ژوئن ۲۰۱۶؛ IEEE: لاس وگاس، NV، ایالات متحده آمریکا، ۲۰۱۶؛ ص ۹۶۱-۹۷۱٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ژانگ، پی. اویانگ، دبلیو. ژانگ، پی. ژو، جی. ژنگ، N. SR-LSTM: اصلاح وضعیت برای LSTM به سمت پیشبینی مسیر عابر پیاده. arXiv ۲۰۱۹ ، arXiv:1903.02793. [ Google Scholar ]
- گوپتا، ا. جانسون، جی. فی فی، ال. ساوارس، اس. الهی، ع. اجتماعی GAN: مسیرهای اجتماعی قابل قبول با شبکه های دشمن مولد. arXiv ۲۰۱۸ , arXiv:1803.10892. [ Google Scholar ]
- حسن، من. ستی، اف. تسملیس، تی. دل بوئه، ا. گالاسو، اف. کریستانی، ام. arXiv ۲۰۱۸ , arXiv:1805.00652. [ Google Scholar ]
- لی، ن. چوی، دبلیو. ورنازا، پ. Choy، CB; Torr، PHS; چاندراکر، ام. دیزایر: پیشبینی آینده دور در صحنههای پویا با عوامل متقابل. arXiv ۲۰۱۷ , arXiv:1704.04394. [ Google Scholar ]
- یو، جی. ژو، ام. وانگ، ایکس. پو، جی. چنگ، سی. چن، بی. یک شبکه توجه آگاه از زمینه پویا و استاتیک برای پیشبینی مسیر. ISPRS Int. J. Geo-Inf. ۲۰۲۱ ، ۱۰ ، ۳۳۶٫ [ Google Scholar ] [ CrossRef ]
- یانگ، تی. نان، ز. ژانگ، اچ. چن، اس. ژنگ، ن. پیشبینی مسیر عامل ترافیک با استفاده از پیچیدگی اجتماعی و مکانیسم توجه. arXiv ۲۰۲۰ ، arXiv:2007.02515. [ Google Scholar ]
- لی، ایکس. یانگ، ایکس. Chuah، MC GRIP++: پیشبینی مسیر متقابل مبتنی بر نمودار پیشرفته برای رانندگی خودمختار. arXiv ۲۰۲۰ ، arXiv:1907.07792. [ Google Scholar ]
- یو، بی. یین، اچ. Zhu, Z. شبکههای کانولوشنال نمودار فضایی-زمانی: چارچوب یادگیری عمیق برای پیشبینی ترافیک. arXiv ۲۰۱۸ , arXiv:1709.04875. [ Google Scholar ]
- دولین، جی. چانگ، مگاوات؛ تره فرنگی.؛ Toutanova، K. BERT: پیش آموزش ترانسفورماتورهای عمیق دو جهته برای درک زبان. arXiv ۲۰۱۹ ، arXiv:1810.04805. [ Google Scholar ]
- لی، ایکس. فنگ، جی. منگ، ی. هان، س. وو، اف. Li, J. چارچوب یکپارچه MRC برای شناسایی موجودیت نامگذاری شده. در مجموعه مقالات پنجاه و هشتمین نشست سالانه انجمن زبانشناسی محاسباتی، آنلاین. ۵–۱۰ ژوئیه ۲۰۲۰؛ صص ۵۸۴۹–۵۸۵۹٫ [ Google Scholar ] [ CrossRef ]
- یامادا، آی. آسایی، ع. شیندو، اچ. تاکدا، اچ. ماتسوموتو، ی. لوک: بازنمودهای موجودات بافتی عمیق با توجه به موجودیت آگاه. در مجموعه مقالات کنفرانس ۲۰۲۰ روشهای تجربی در پردازش زبان طبیعی (EMNLP)، آنلاین. ۵–۱۰ ژوئیه ۲۰۲۰؛ ص ۶۴۴۲–۶۴۵۴٫ [ Google Scholar ] [ CrossRef ]
- گو، ج. بردبری، جی. شیونگ، سی. لی، VOK; Socher, R. ترجمه ماشین عصبی غیر خود رگرسیون. arXiv ۲۰۱۸ , arXiv:1711.02281. [ Google Scholar ]
- منگ، ی. ژانگ، ی. هوانگ، جی. شیونگ، سی. جی، اچ. ژانگ، سی. Han, J. طبقهبندی متن فقط با استفاده از نامهای برچسب: رویکرد خودآموزی مدل زبان. arXiv ۲۰۲۰ ، arXiv:2010.07245. [ Google Scholar ]
- آلتوف، ام. Mergel, A. مقایسه انتزاع زنجیره مارکوف و شبیه سازی مونت کارلو برای ارزیابی ایمنی خودروهای خودمختار. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۱۱ ، ۱۲ ، ۱۲۳۷-۱۲۴۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هیلنبراند، جی. اسپایکر، AM; Kroschel, K. رویکرد کاهش برخورد چند سطحی – ارزیابی موقعیت، تصمیم گیری و معاوضه عملکرد. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۰۶ ، ۷ ، ۵۲۸-۵۴۰٫ [ Google Scholar ] [ CrossRef ]
- پلی کرونوپولوس، آ. سوگاس، م. Amditis، AJ; Andreone، L. Fusion حسگر برای پیش بینی مسیر وسایل نقلیه برای سیستم های جلوگیری از برخورد. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۰۷ ، ۸ ، ۵۴۹-۵۶۲٫ [ Google Scholar ] [ CrossRef ]
- مسعود، ک. یحیوی، آی. وروست-بلندت، ا. نشاشیبی، ف. پیش بینی مسیر وسیله نقلیه مبتنی بر توجه. IEEE Trans. هوشمند وه ۲۰۲۱ ، ۶ ، ۱۷۵-۱۸۵٫ [ Google Scholar ] [ CrossRef ]
- کیم، اچ. کیم، دی. کیم، جی. چو، جی. هو، ک. پیش بینی مسیر وسیله نقلیه احتمالی مبتنی بر توجه چند سر. arXiv ۲۰۲۰ ، arXiv:2004.03842. [ Google Scholar ]
- پنگ، ی. ژانگ، جی. شی، ج. خو، بی. ژنگ، L. SRAI-LSTM: یک LSTM آگاه مبتنی بر تعامل مبتنی بر روابط اجتماعی برای پیشبینی مسیر انسان. محاسبات عصبی ۲۰۲۱ . [ Google Scholar ] [ CrossRef ]
- یوان، ی. ونگ، ایکس. او، ی. Kitani، K. AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent Forecasting. arXiv ۲۰۲۱ ، arXiv:2103.14023. [ Google Scholar ]
- پاسسکه، آ. گراس، اس. چینتالا، اس. چانان، جی. یانگ، ای. دی ویتو، ز. لین، ز. Desmaison، A. آنتیگا، ال. لرر، الف. تمایز خودکار در PyTorch. در دسترس آنلاین: https://openreview.net/forum?id=BJJsrmfCZ (در ۳۰ اکتبر ۲۰۲۱ قابل دسترسی است).
- Kingma، DP; با، جی. آدام: روشی برای بهینه سازی تصادفی. arXiv ۲۰۱۷ , arXiv:1412.6980. [ Google Scholar ]
بدون دیدگاه