تشخیص ناهنجاری جمعیت از طریق محدودیت‌های فضایی و اغتشاش معنادار

تشخیص ناهنجاری جمعیت یک مشکل کاربردی و چالش برانگیز برای بینایی کامپیوتر و VideoGIS به دلیل ماهیت نادر و متنوع وقایع غیرعادی است. در نتیجه، روش‌های سنتی بر بازسازی سطح پایین در یک فضای تصویر تکیه می‌کنند که به راحتی توسط پیکسل‌های بی‌اهمیت یا تغییرات ناگهانی تحت‌تاثیر قرار می‌گیرد. علاوه بر این، تشخیص بی‌درنگ برای تشخیص ناهنجاری جمعیت چالش برانگیز است و محلی‌سازی ناهنجاری‌ها نیاز به نظارت دیگری دارد. ما یک رویکرد تشخیص جدید برای یادگیری ویژگی‌های مکانی-زمانی با محدودیت‌های مکانی یک تصویر ثابت پویا ارائه می‌کنیم. اول، یک رمزگذار خودکار فضایی و زمانی سبک پیشنهاد شده است که قادر به بازسازی تصویر در زمان واقعی است. دوم، ما یک شبکه پویا را برای به دست آوردن یک نمایش فشرده از فریم‌های ویدئویی در حال حرکت، ارائه می‌کنیم که هشدارهای ناهنجاری مثبت کاذب را با محدودیت‌های مکانی کاهش می‌دهد. علاوه بر این، ما روش تفسیر بصری اغتشاش را برای تجسم ناهنجاری و محلی‌سازی برای بهبود اعتبار نتایج اتخاذ می‌کنیم. در آزمایش‌ها، نتایج ما عملکرد رقابتی را در سناریوهای مختلف ارائه می‌کند. علاوه بر این، رویکرد ما می‌تواند ۵۲٫۹-۶۳٫۴ فریم در ثانیه را در تشخیص ناهنجاری پردازش کند، که آن را برای تشخیص ناهنجاری جمعیت در نظارت تصویری عملی می‌کند.

کلید واژه ها:

VideoGIS ; فضایی و زمانی هوش مصنوعی جغرافیایی ; محدودیت های فضایی ؛ یادگیری عمیق

۱٫ مقدمه

داده های ویدئویی در نظارت بر امنیت عمومی ضروری شده اند. همچنین فرصت‌های بی‌سابقه‌ای را برای GIS فراهم می‌کند تا فرآیندهای حاکم بر پویایی پدیده‌های اجتماعی جمعی را بررسی کند [ ۱ ]. تمرکز قابل توجه بر تشخیص ناهنجاری جمعیت است. به عنوان مثال، نظارت تصویری باید درگیری خشونت آمیز یا تصادفات رانندگی را به سرعت و با دقت تشخیص دهد. رویکردهای سنتی به شدت توسط میزان تلاش انسانی مورد نیاز برای انجام تصمیم‌گیری دستی محدود شده‌اند. با این حال، با پیچیده‌تر شدن کارها و قابل توجه‌تر شدن تعداد گزینه‌ها برای استدلال، نیاز فزاینده‌ای برای مشخص کردن ناهنجاری‌های مورد نظر به شیوه‌ای خودکار و قابل تفسیر وجود دارد.

از آنجایی که فیلم رویداد غیرعادی در توالی‌های ویدیویی نادر است، تشخیص اغلب با طبقه‌بندی‌کننده‌های یک کلاس انجام می‌شود [ ۲ ]. اخیراً مدل‌های مبتنی بر بازسازی [ ۳ ، ۴ ، ۵ ، ۶] امیدوار کننده ترین راه حل شده اند. این مطالعات، فریم‌های منظم یا ویژگی‌های مکانی-زمانی را به چارچوب ارسال می‌کنند و آنها را با خطاهای جزئی بازسازی می‌کنند. بنابراین، ناهنجاری ها معمولاً به دلیل انحراف از الگوهای بصری استاندارد، خطاهای بازسازی قابل توجهی را نشان می دهند. با این حال، رویدادهای غیرعادی نیز به دلیل ظرفیت زیاد و تعمیم شبکه های عصبی عمیق قابل بازسازی هستند. علاوه بر این، جمع آوری تمام سناریوهای منظم ممکن برای آموزش امکان پذیر نیست. کلاس عادی نیز ممکن است با نمایش های آموخته شده متفاوت باشد و ممکن است به عنوان غیرعادی تشخیص داده شود. دسته دوم روش های مبتنی بر پیش بینی هستند. آنها فریم های آینده را پیش بینی می کنند [ ۷ ، ۸ ، ۹] با رمزگذار خودکار متغیر (VAE). بنابراین، فریم‌های پیش‌بینی‌شده به امکانات امکان‌پذیر بیشتری دست یافتند و عملکرد تشخیص ویدیو را بر اساس شبکه متخاصم مولد (GAN) ارتقا دادند [ ۱۰ ].

اگرچه روش‌های فوق به ما اجازه می‌دهند تا به طور خودکار وظایف تشخیص ناهنجاری را با نظارت تصویری انجام دهیم، عملکرد تشخیص رویکردهای فعلی محدود است. اول، بیشتر تکنیک‌ها الگوهای منظم را یاد می‌گیرند و ناهنجاری‌ها را در یک فضای تصویر مبتنی بر ظاهر تشخیص می‌دهند. آنها معمولاً فریم‌های ویدئویی خام را با فریم‌های بازسازی‌شده پیکسل به پیکسل مقایسه می‌کنند که مستعد پیکسل‌های بی‌اهمیت یا تغییرات ناگهانی است. دوم، هزینه محاسباتی آنها در پردازش فریم های ویدیویی با ابعاد بالا بالا است و برای برنامه های بلادرنگ قابل استفاده نیست. علاوه بر این، این رویکردها همیشه نحوه تعامل طبقه‌بندی با معناشناسی صحنه را نامشخص می‌گذارند. نیاز به توسعه روش‌هایی است که تضمین‌های پیش‌بینی‌کننده برای قابل‌اعتماد ساختن مدل‌ها برای نظارت فراهم کند. از این رو،

در اینجا، ما به سوالات بالا می پردازیم و شکاف را با یک چارچوب سبک وزن جدید برای تشخیص و محلی سازی ناهنجاری جمعیت کاهش می دهیم. اول، ما یک چارچوب سبک وزن شامل یک رمزگذار خودکار کم‌بعد و یک تقریب‌کننده نقشه پویا، و چندین هدف جمع‌آوری‌شده که از حرکت، ظاهر، اغتشاش و ویژگی‌های پویا بهره‌برداری می‌کنند، پیشنهاد کردیم. دوم، ما امتیاز نظم را با محدودیت‌های فضایی با استفاده از نقشه پویا، کاهش هشدارهای مثبت کاذب به دلیل تاری حرکت، تغییرات ناگهانی، و غیره تعریف کردیم. نیازی به نظارت دیگری ندارد و به راحتی در شبکه های موجود جاسازی می شود.

نوآوری های اصلی در کار ما به شرح زیر برجسته شده است: (۱) ساختار سبک وزن با اهداف متعدد را فرموله می کند، که می تواند فضای مقایسه را محدود کند و پیکسل های بی اهمیت یا تغییرات ناگهانی را فیلتر کند. (۲) تفسیر یک الگوریتم را با استفاده از اغتشاش معنی دار طراحی می کند، باعث می شود که ویژگی های بصری مفاهیم معنایی واضحی داشته باشند و امکان محلی سازی تشخیص ناهنجاری را فراهم می کند. (۳) تشخیص موثر را به یک الگوی عملی با مقیاس‌های هزینه‌های محاسباتی کم برای برآورده کردن نظارت بر جمعیت در زمان واقعی اصلاح کرد. به این معنا که رویکرد ما تجمیع اهداف متعددی است که از حرکت، ظاهر، اغتشاش و ویژگی‌های پویا برای کاهش شکاف بین پیچیدگی محاسباتی و اثربخشی تشخیص استفاده می‌کند. از منظر عملی،

۲٫ بررسی ادبیات

روش پیشنهادی با یک کار تشخیص چالش برانگیز سر و کار دارد: مشخص کردن ناهنجاری های مورد نظر به صورت خودکار و قابل تفسیر، کاهش شکاف بین پیچیدگی محاسباتی و اثربخشی تشخیص. از جنبه عملی، گسترش شامل دو عنصر مهم است.

۲٫۱٫ تشخیص ناهنجاری جمعیت

تشخیص ناهنجاری جمعیت یک وظیفه اصلی در امنیت عمومی است. این یک کار پیچیده است زیرا ناهنجاری ها از قبل شناخته شده نیستند. مطالعات اخیر عمدتاً بر ویژگی‌های ویدیویی ساخته‌شده با دست [ ۱۱ ، ۱۲ ] و یادگیری عمیق [ ۱۳ ] تمرکز دارند. از آنجایی که فیلم رویداد غیرعادی در دنباله‌های ویدیویی نادر است، روش‌های تشخیص آنومی با نظارت ضعیف به طور گسترده مورد استفاده قرار می‌گیرند. به عنوان مثال، انرژی تعامل [ ۱۴ ، ۱۵ ]، ویژگی های مکانی-زمانی [ ۱۶ ، ۱۷ ]، یادگیری فرهنگ لغت [ ۱۸ ]، و نمایش پراکنده [ ۱۹ ، ۲۰ ]] فقط توزیع داده‌های معمولی را تجزیه و تحلیل می‌کند و در حین آزمایش، امتیاز ناهنجاری را نشان می‌دهد. اکثر مدل‌های تحت نظارت ضعیف در تشخیص ناهنجاری پیشنهاد کردند که مدل را می‌توان از کارهای بازسازی آموزش داد [ ۲۱ ، ۲۲ ، ۲۳ ]. به عنوان مثال، Xu و همکاران. [ ۲۴ ] روشی را برای یادگیری توصیفگرهای خاص صحنه مورد علاقه پیشنهاد کرد. لو و همکاران [ ۲۵ ] یک چارچوب تشخیص مبتنی بر LSTM ایجاد کرد، قاب ویدیوی قبلی را بازسازی کرد و فریم ویدیویی بعدی را از طریق بردارهای پنهان پیش‌بینی کرد. بر این اساس، وانگ و همکاران. [ ۲۶ ] یک روش پیش بینی بهینه را برای تمایز بین رویدادهای عادی و غیر طبیعی به طور قابل توجهی پیشنهاد کرد. ژو و همکاران [ ۲۷] با تقسیم‌بندی ناحیه حرکت بلوک‌های حرکت مؤثر را به‌دست آورد و الگوریتم از طبقه‌بندی‌کننده هر کلاس برای مدل‌سازی هر نمونه استفاده کرد. لی و همکاران [ ۲۸ ] چارچوبی را برای تعیین کمیت و تشخیص حرکت جمعی در صحنه های جمعیت پیشنهاد کرد. بنابراین، آنها به تشخیص رویداد غیرعادی در جمعیت دست می یابند در حالی که به طور همزمان ظاهر و الگوهای حرکت را در نظر می گیرند. تلاش‌هایی برای شناسایی عناصر هر یک از شی‌های ورودی انجام شده است [ ۲۹ ، ۳۰]، بهبود شبکه عصبی کاملاً کانولوشن و ایجاد شبکه های متخاصم. این معماری‌ها می‌توانند نواحی غیرعادی را نشان دهند، اما نمی‌توانند همبستگی زمانی بین فریم‌های ویدئویی را بیان کنند. بنابراین، چندین نویسنده اخیرا یک شبکه کانولوشنال دو جریانی را برای تشخیص غیرعادی ارائه کرده اند، از جمله ترکیب یک جریان ظاهری و جریان عمل [ ۳۱ ]، که جزئیات را در فریم های خروجی بهبود می بخشد [ ۳۲ ]. از آنجایی که اکثر روش‌های قبلی بر مدل‌سازی الگوهای حرکتی تمرکز دارند [ ۳۳]، یک محدودیت جهانی این است که داده های برچسب گذاری شده برای آموزش الگوی عادی یا غیر طبیعی و محدود کردن کاربرد این روش ها در کاربردهای عملی مورد نیاز است. بنابراین چالش در کاربردهای عملی در تشخیص آنلاین است. این ایده ها به یادگیرنده فضایی-زمانی افزایشی [ ۳۴ ] و الگوریتم تشخیص ناهنجاری مبتنی بر فیلتر ذرات [ ۳۵ ] انگیزه داده است. با این حال، آنها به بازخورد انسانی بستگی دارند، نه یک رویکرد انتها به انتها.

این مطالعات عمدتاً بر روی فضاهای تصویری تک بعدی و با ابعاد بالا و حفظ تمام اطلاعات دقیق متمرکز بود. در مقابل، ما ویژگی های مکانی-زمانی و تصاویر پویا را از دیدگاه های مختلف یاد می گیریم. ما یک رمزگذار خودکار کم بعدی برای کاهش پیچیدگی محاسباتی و یک الگوی پویا برای محدود کردن فضای مقایسه و کاهش شکاف بین پیچیدگی و کارایی ارائه می‌کنیم.

۲٫۲٫ محلی سازی ناهنجاری جمعیت

شناسایی مکان های ناهنجاری برای بهتر دید و وضعیت سیستم ضروری است. پیشرفت‌ها در CNNهای عمیق اثربخشی این کار را تأیید کرده‌اند. به عنوان مثال، زو و همکاران. [ ۳۶ ] یک شبکه تقویت شده حرکتی را برای محلی سازی بهتر ناهنجاری ها معرفی کرد. با در نظر گرفتن آبشار رقابتی DNN ها، سابکرو و همکاران. [ ۳۷ ] یک روش مبتنی بر پچ مکعبی را توصیف می کند. آنها چارچوب را به دو مرحله فرعی تقسیم می کنند و به عنوان طبقه بندی کننده های آبشاری عمل می کنند. علاوه بر این، Lv. و همکاران [ ۳۸ ] روشی با نظارت ضعیف برای شناسایی مکان‌های ناهنجاری با استفاده از برچسب‌های سطح ویدیو پیشنهاد کرد. بنابراین، معناشناسی استخراج شده می تواند مستقیماً به استنباط ناهنجاری ها اشاره کند. علاوه بر این، احمد و همکاران. [ ۳۹] یک رویکرد مبتنی بر داده را برای فعال کردن تشخیص ناهنجاری و محلی سازی پیشنهاد کرد. وظیفه محلی سازی با استفاده از نمره ناهنجاری انجام می شود. بر اساس روش تولید، آرامیت. و همکاران [ ۴۰ ] بسته بندی لبه را برای کاهش نویز و سرکوب لبه های غیرمرتبط اجسام ناهنجار پیشنهاد کرد. محمد و همکاران [ ۴۱ ] از SqueezeNet با هسته‌های کانولوشنال کوچک‌تر بدون محلی‌سازی آتش متراکم در ویدیوی نظارتی استفاده کرد. محلی سازی ناهنجاری را می توان به یک وظیفه تفسیری نیز طبقه بندی کرد. تجسم و تبیین مدل سازی پیشرفت های شگرفی را در بینایی کامپیوتر تجربه کرده است [ ۴۲ ، ۴۳ ]. سیاستگذاران باید از میان بسیاری از معانی ممکن تفسیرپذیری تصمیم بگیرند. اینها از تجسم [ ۴۴ ،۴۵ ، ۴۶ ] و تفاسیر پست فوری تصمیمات [ ۴۷ ] برای اطمینان از قابل اعتماد بودن نتایج از نظر اهداف مشخص شده [ ۴۸ ]. با این حال، روش‌هایی که تجسم شهودی را تولید می‌کنند، عمدتاً اکتشافی، مبهم، غیر شهودی و برای تحلیل‌گران دشوار هستند که دلیل تصمیم‌گیری درونی را درک کنند [ ۴۹ ، ۵۰ ].

به طور خلاصه، ادبیات فعلی برای بومی‌سازی تشخیص ناهنجاری عمدتاً به سایر اشکال نظارت محدود می‌شود. در مقابل، ما یک نقشه تفسیر سطح پیکسل را با افزودن موارد اغتشاش به تصویر ورودی پیشنهاد می کنیم. علاوه بر این، ما یک راه حل تقریبی ریزدانه برای مسئله “جعبه سیاه” به دست می آوریم و مناطق ناهنجاری را بومی سازی می کنیم.

۳٫ مواد و روشها

۳٫۱٫ بررسی اجمالی

به طور شهودی، تنها چند عمل می تواند باعث ایجاد ناهنجاری برای یک سناریوی خاص ازدحام شود، و ظاهر و حرکت اشیاء بصری برای تشخیص ناهنجاری حیاتی است. برای این منظور، رویکرد پیشنهادی برای تشخیص ناهنجاری در زمان واقعی و محلی‌سازی روی نظارت تصویری اعمال می‌شود. شکل ۱ نمای کلی روش ما را نشان می دهد. از یک رمزگذار خودکار و یک ژنراتور تشکیل شده است. به طور خاص، رمزگذار خودکار به فضای دو بعدی تغییر یافته است که میانبر آن می تواند به دقت و کارایی کمک کند. علاوه بر این، ما از تصاویر پویا برای نمایش محدودیت‌های فضایی قاب بازسازی‌شده استفاده می‌کنیم و انتظار تجسم و محلی‌سازی ناهنجاری‌ها را با استفاده از اغتشاش معنادار داریم.

تفاوت های اصلی بین رویکرد ما و روش های قبلی شامل دو جزء اصلی است. ابتدا، رویکرد ما با تقطیر ناحیه پویا و فیلتر کردن پیکسل‌های بی‌اهمیت یا تغییرات ناگهانی، فضای مقایسه را محدود می‌کند. (رویکرد تصویر پویا معمولاً برای نمایش ویدئو فشرده استفاده می شود). دوم، ما از روش اغتشاش برای توضیح فرآیند تصمیم گیری و محلی سازی متناظر آن برای هدایت تشخیص ناهنجاری در سطح شی استفاده می کنیم.

۳٫۲٫ بیانیه های مشکل

یک محرک کلیدی برای پیشرفت یادگیری عمیق برای تحقیقات ناهنجاری جمعیت، کاهش شکاف بین پیچیدگی محاسباتی و اثربخشی تشخیص و ارضای تقاضا برای توضیح پذیری خواهد بود.

در اینجا، ما فرض می‌کنیم که فقط یک ناحیه پویا محدود می‌تواند باعث ایجاد ناهنجاری برای یک سناریوی نظارتی خاص در این کار شود. بنابراین، نارضایتی از تشخیص ناهنجاری با محدودیت‌های فضایی ممکن است شکاف بین پیچیدگی محاسباتی و اثربخشی تشخیص را کاهش دهد. این منطقی است زیرا ساختار تشخیص ناهنجاری می‌تواند قابلیت‌های یادگیری عمیق قدرتمند و وابستگی‌های سطح بالا از داده‌های مکانی را در خود جای دهد. اول، نگه داشتن رمزگذار و رمزگشا با ابعاد کم می تواند پیچیدگی محاسبات را در طول تشخیص ویژگی های مکانی و زمانی کاهش دهد. دوم، تقریب‌کننده تصویر پویا می‌تواند ناحیه مقایسه پیکسل به پیکسل را بر روی یک فضای تصویر خاص محدود کند، پیکسل‌های بی‌اهمیت یا تغییرات ناگهانی را فیلتر کند.

علاوه بر اطمینان از پیچیدگی و اثربخشی، تقاضای فزاینده ای برای توضیح تصمیمات سیستم ها وجود دارد. تشخیص ناهنجاری روابط بین ورودی داده ها و خروجی های تصمیم را از منظر عملی می آموزد. بنابراین، توضیح‌پذیری می‌تواند قابلیت اعتماد و تجسم مدل را امکان‌پذیر کند. یک عنصر اساسی تقاضا برای توضیح پذیری این است که اطمینان حاصل شود که نتایج برای افراد مشخص شده برای تصمیم منصفانه است.

۳٫۳٫ رمزگذار خودکار فضایی و زمانی با تقریب نقشه پویا

۳٫۳٫۱٫ مفاهیم اساسی

ماژول پیشنهادی شامل رمزگذار خودکار مکانی و زمانی و تقریب‌کننده تصویر پویا است که به طور مشترک دینامیک نماینده و تصویر را بررسی می‌کنند، همانطور که در شکل ۲ نشان داده شده است. اجازه دهید

I (x, t)

یک فریم ویدیویی در دامنه فضایی D و دامنه زمانی T باشد، که در آن

x \in D

مختصات پیکسل را نشان می دهد و

t \in T

فریم های موجود در دنباله ویدیو را نشان می دهد. بدین ترتیب،

I (x, t)

می تواند یک تابع سه بعدی در D × T باشد.

۳٫۳٫۲٫ رمزگذار خودکار فضایی و زمانی

رمزگذار خودکار برای بهره برداری موثر از ویژگی های مکانی-زمانی طراحی شده است. اجزای اصلی آن در زیر توضیح داده شده است:

ورودی‌ها: فریم‌های ویدیوی خام از قبل پردازش شده، به مقیاس خاکستری تبدیل می‌شوند و اندازه آن به ۲۲۴×۲۲۴ پیکسل تغییر می‌کند تا ظرفیت مدل افزایش یابد. فریم های ویدئویی به صورت فریم های متوالی – هشت فریم در هر دسته استخراج می شوند.

رمزگذار و رمزگشا فضایی: از دو لایه کانولوشن و دو لایه دکانولوشن تشکیل شده است که فیلترها و اندازه هسته آنها در شکل ۲ مشخص شده است.

رمزگذار زمانی: از سه لایه convLSTM تشکیل شده است که ویژگی‌های مکانی-زمانی را از دنباله‌های قاب ورودی، که فیلترها و اندازه هسته آن در شکل ۲ مشخص شده‌اند، می‌گیرد .

برخلاف ساختار مکعبی، رمزگذار زمانی نمایش پنهان ویژگی های ظاهری را تولید می کند که به عنوان نمایش نهفته در نظر گرفته می شود. با توجه به داده های آموزشی x ، مدل های رمزگذار و رمزگشا توسط دو شبکه فرعی پارامتری می شوند. $p_{θ} (x | z)$ و $q_{Φ} (z | x)$ جایی که $θ$ و $Φ$ پارامترهای شبکه هستند و $z$ یک متغیر پنهان جمعی را نشان می دهد. بنابراین، نمایش پنهان را می توان از طریق زیر به دست آورد:

q (z آ) = 🔻 ایکس آ q (z آ | ایکس آ) p (ایکس آ) د ایکس آ

(۱)

از دیدگاه ساختار رمزگذار-رمزگشا، ما فرض می‌کنیم که رمزگذارهای خودکار نمایش‌های پنهان را تولید می‌کنند:

ساعت آ من = g (دبلیو آ ایکس آ من + ب آ)

(۲)

ساعت متر من = g (دبلیو متر ایکس متر من + ب متر)

(۳)

جایی که $h_{i}^{a}$ و $h_{i}^{m}$ به ترتیب نمایش های پنهانی برای ظاهر و حرکت هستند. پارامترها $(W^{a}, W^{m}, b^{a}, b^{m})$ برای یک مجموعه داده آموزشی داده شده یاد می گیرند. پس از آن، مدل نگاشت‌هایی را از بازنمایی ذاتی مکانی/زمانی به رمزگذار خودکار مکانی-زمانی می‌یابد. ماتریس وزن و شرایط بایاس نگاشت توسط پارامتر بندی می شوند $W^{N}$ و $b^{N}$ ، تابع نگاشت عبارت است از:

ساعت متر من = g (دبلیو ن ساعت آ من + ب ن)

(۴)

بر اساس به دست آمده $h_{i}^{a}$ و $h_{i}^{m}$ ، بهینه سازی شبکه عصبی در رمزگذار خودکار مکانی-زمانی یادگیری تابع نگاشت با به حداقل رساندن موارد زیر است:

\sum من n ∥∥ g (دبلیو ن ساعت آ من + ب ن) - ساعت متر من ∥∥ ۲

(۵)

برای به حداقل رساندن میانگین مربعات خطا در رابطه (۵)، از پس انتشار (BP) برای تنظیم پارامترها استفاده می کنیم. ما همچنین از رمزگذار خودکار مکانی-زمانی برای استخراج الگوهای منظم در روند آموزش و کنترل مقیاس شبکه در حالی که اطلاعات زمان‌بندی را با حرکت ترکیب می‌کنیم، استفاده می‌کنیم. برخلاف بازسازی پراکنده، ما روابط داخلی بین فریم‌های ویدیویی را ضبط می‌کنیم. انتظار می‌رود که فیلترهای مکانی-زمانی الگوهای مکانی-زمانی را در مقیاس‌های چندگانه ثبت کنند.

ساختار سبک وزن رمزگذار خودکار مکانی-زمانی نشان می دهد که مدل انعطاف پذیر و ساده است. این تضمین می کند که نمایش داخلی داده های مکانی و زمانی را به خوبی توصیف می کند و شبکه عصبی می تواند روابط پیچیده بین اصطلاحات مکانی-زمانی را بیاموزد. علاوه بر این، عملکرد نقشه برداری و تصاویر داخلی به طور مشترک بهینه شده و در نتیجه همبستگی دارند.

۳٫۳٫۳٫ تقریب تصویر پویا

اطلاعات حرکت برای عملکرد بهتر در طراحی یک شبکه عصبی عمیق برای تشخیص ناهنجاری ضروری است [ ۳۶ ]. با این حال، نشان دادن پویایی بلندمدت اغلب دشوار است. برای این منظور، یکی از وظایف اصلی این است که الگوی فعال رفتار غیرعادی را به تصویر بکشیم تا الگوهای بصری پویا ظاهر و حرکت بلندمدت را آشکار کنیم. تقریب‌کننده نقشه پویا، کلیپ‌های ویدیویی را در یک تصویر ثابت فشرده می‌کند و در عین حال ظاهر و اطلاعات حرکتی غنی را حفظ می‌کند.

با انگیزه [ ۲۰ ، ۵۱ ]، ما یک رویکرد کارآمد را پیشنهاد می کنیم که در آن یک تصویر واحد فریم های ویدئو را خلاصه می کند. تفاوت این است که ما فقط از نقشه پویا به عنوان یک ماسک یا محدودیت های فضایی برای فریم های بازسازی شده استفاده می کنیم. اجازه دهید $ψ (I_{t}) \in ℝ^{d}$ یک بردار استخراج شده از یک فریم ویدیویی جداگانه باشد $I_{t}$ ; ما تصویر پویا را با فشرده سازی دنباله ویدیو در بردار پارامترهای d ^* به کار می بریم :

د * = ρ (من ۱, \dots, من تی)

(۶)

جایی که $ρ (\cdot)$ تابع نقشه است که یک توالی ویدیو را به یک بردار نگاشت می کند و d* نیز می تواند به عنوان یک تصویر در نظر گرفته شود. به طور متفاوت، ما این اصطلاح را حذف کردیم $ψ$ به عنوان ورودی به تقریب از قبل در نقشه های ویژگی است. همچنین می توانیم d* را به صورت زیر در نظر بگیریم:

د * = آرگمین د {λ ۲ ∥ d ∥ ۲ + ۲ تی ( تی - ۱ ) \times \sum q > t حداکثر {۰ ، ۱ - S (ق | د) + S (t | d)}}

(۷)

جایی که $S (q | d) = 〈 d, V_{t} 〉$ امتیاز رتبه بندی مربوط به هر بار t و است $V_{t} = \frac{1}{t} \sum_{r = 1}^{t} ψ (I_{r})$ میانگین زمانی این فریم های ویدئویی تا زمان t است. ویژگی ها منعکس کننده ترتیب فریم ها در ظاهر هستند، تکامل پویا در حوزه های مکانی و زمانی قابل ثبت است.

برای ایجاد یک مرز فضایی، محاسبه تصاویر پویا با درجه بالایی از دقت ممکن است ضروری نباشد. بنابراین، ما از یک تقریب برای رتبه بندی ادغام مانند [ ۵۱ ] برای بهینه سازی معادله (۷) استفاده می کنیم، که سریعتر است و در عمل به خوبی کار می کند:

د \propto \sum q > t V q - V تی = \sum t = ۱ تی α تی V تی

(۸)

جایی که $α_{t}$ نشان دهنده ضریب داده شده توسط $α_{t} = 2 (T - t + 1) - (T + 1) (H_{T} - H_{t - 1})$ . به عبارت دیگر، می‌توانیم تقریب‌کننده نقشه پویا را به‌عنوان یک لایه برای ترکیب کردن ظاهر و حرکت اجسام بازسازی کنیم.

ما یک ماتریس هویت ابداع کردیم $I M$ برای تعریف مرزهای فضایی برای تشخیص ناهنجاری ( شکل ۳ را ببینید ). هدف ماتریس شناسایی مناطقی از یک تصویر است که برای تولید ضرر بازسازی استفاده می‌شوند. به طور رسمی، اجازه دهید $I$ به هر پیکسل مرتبط شود $u$ در تصویر پویا $d$ با مقدار اسکالر $m (u)$ . از این رو، $I M$ یک ماتریس m × n مشابه تصویر پویا است $d$ . می توان آن را محاسبه کرد:

m ( u ) = {۱ ،۰ ,اگر  در فضای تصویر حرکت یا تاری دارید . _       در غیر این صورت .

(۹)

۳٫۴٫ تشخیص ناهنجاری

خطای بازسازی

E

نشان دهنده تفاوت بین قاب های خام و قاب های بازسازی شده است. علاوه بر این، ما از محدودیت‌های مکانی تقریب‌کننده نقشه پویا برای مدل‌سازی توزیع احتمال داده‌های استاندارد استفاده می‌کنیم. برای تجزیه و تحلیل کیفی مدل خود، از امتیاز نظم استفاده کردیم تا توانایی مدل خود را در تشخیص ناهنجاری‌های مربوط به نرمال بودن هر فریم در ویدیو نشان دهیم.

استفاده از نمونه‌گیری خطی در یک دنباله ویدئویی، محاسبات را در مقایسه با یک طرح غیرنمونه‌برداری کاهش می‌دهد. پس از آموزش، خطای بازسازی با توجه به تفاوت بین قاب ورودی و قاب بازسازی شده با محدودیت های مکانی محاسبه می شود. ما امتیاز نظم را به صورت زیر تعریف کردیم:

φ (k, i, j) = {∣∣ ایکس (k, i, j) - ایکس ¯¯¯ (k, i, j) ∣∣ ۲ ۰ من م من ، ج \geq ۰ من م من ، ج = ۰

(۱۰)

E (t) = (\sum k = ۰ ن - ۱ \sum i = ۰ w - ۱ \sum j = ۰ h - ۱ φ (k, i, j)) ۱ ۲

(۱۱)

جایی که $\bar{X}$ قاب بازسازی شده از است $X$ ، $φ (\cdot)$ تابع خطای پیکسل است، $N$ مجموع اعداد فریم است، $w$ عرض است، $h$ ارتفاع فریم ویدیو است و $I X$ ماتریس هویت مرتبط است. توجه داشته باشید که ۱۶ فریم مربوط به یک ماتریس هویت در کار ما است.

با بررسی داده‌های جایی که مدل تمایل به خطا دارد، امتیازهای ناهنجاری را محاسبه می‌کنیم $S_{a} (t)$ ، نمرات نظم $S_{r} (t)$ ، و سپس خطای بازسازی را به [۰، ۱] نرمال کنید. روش محاسبه امتیاز نظم به شرح زیر است:

اس آ (t) = E ( t ) - دقیقه E تی ( تی ) حداکثر تی E ( t ) - دقیقه تی E ( تی )

(۱۲)

اس r (t) = ۱-_اس آ (تی)

(۱۳)

فرض کنید هیچ رویداد غیرعادی در یک سکانس ویدیو وجود ندارد. در آن صورت، به دلیل عدم وجود الگوهای نامنظم در حین تمرین، امتیاز خطای بازسازی مربوطه بالاتر از توالی ویدیویی غیرعادی است. بنابراین، تعیین یک آستانه برای امتیاز نظم می‌تواند ارزیابی کند که آیا یک رویداد غیرعادی در یک فریم ویدیو رخ داده است یا خیر. در این کار، ما آستانه را به عنوان تغییرات تطبیقی در نظر می گیریم که به صورت زیر محاسبه می شود:

تی = a 1 ن \sum تی اس r (تی)

(۱۴)

جایی که $S_{r} (t)$ نشان دهنده امتیاز نظم و پارامتر تنظیم است $a$ از طریق آموزش به دست می آید.

مدل های ذکر شده همچنین به نمایش الگوریتمی تشخیص ناهنجاری جمعیت نیاز دارند. مفروضات مورد استفاده برای انتخاب این بلوک‌های اساسی این بود که فقط یک ناحیه دینامیکی محدود می‌تواند باعث ایجاد ناهنجاری‌هایی برای سناریوی نظارتی خاص توسعه‌یافته در این مقاله شود. روش تشخیص ناهنجاری در الگوریتم ۱ توضیح داده شده است.

الگوریتم ۱٫ الگوریتم تشخیص ناهنجاری جمعیت

Input : {I_{t}}

دسته ای از فریم های ویدئویی خام در زمان t است
خروجی : فریم های ویدئویی ناهنجار
۱: تغییر اندازه

{I_{t}}

تا ۲۲۴ × ۲۲۴ پیکسل در بلوک ورودی
۲: برای هر فریم ویدیو

I_{i}

که در

{I_{t}}

انجام
۳: فریم ویدیو را به جلو پخش کنید

I_{i}

از طریق بلوک رمزگذار فضایی
۴: نقشه های ویژگی SF را از لایه C2 از بلوک رمزگذار مکانی
۵ انتخاب کنید: انتشار SF به جلو از طریق بلوک ۶ رمزگذار زمانی : در صورت تولید SFs = 16 ایجاد تصویر پویا از طریق بلوک تقریبی محاسبه ماتریس هویت

I M_{t}

از تصویر پویا (معادله (۹)) پایان
تصویر پویا را آغاز کنید
اگر
۷: انتشار SF به جلو از طریق بلوک رمزگذار موقتی
۸: نقشه های ویژگی TF را از لایه CL3 بلوک رمزگذار موقت
۹ انتخاب کنید: انتشار TF به جلو از طریق بلوک رسیور
۱۰: انتخاب کنید فریم RF بازسازی شده از لایه DC2 از بلوک انکودر
۱۱: پایان برای
۱۲: برای شاخص RF = 1 تا ۱۶، ۱۳ را انجام دهید
: محاسبه امتیاز نظم برای هر RF (معادلات (۱۰)-(۱۴))
اگر امتیاز نظم < آستانه
خروجی
پایان RF اگر
۱۴: پایان برای

۳٫۵٫ تجسم ناهنجاری و محلی سازی

در نظارت بر جمعیت، بهبود اعتبار نتایج تشخیص به دلیل الزامات قابلیت اطمینان بالا ضروری است و دقت برای تصمیم گیری کافی نیست. برای ارائه یک پایه قابل اعتماد برای مدل‌سازی محاسباتی و شناسایی محلی‌سازی ناهنجاری در توالی‌های ویدیویی، ما یک نمودار قابل تفسیر از تشخیص رویداد با استفاده از ویژگی‌های فضایی-زمانی اغتشاش را امتحان کردیم. اخیراً، جامعه بینایی رایانه از تفسیر اغتشاش [ ۵۲ ، ۵۳ ، ۵۴ ، ۵۵ ] استفاده کرده است.]. به طور خاص، دو نوع «تفسیر محفوظ» و «تفسیر محذوف» وجود دارد. هدف قبلی حفظ خروجی واقعی مدل تشخیص از طریق حداقل ناحیه ای است که باید در تصویر ورودی حفظ شود. مورد دوم به حداقل میزانی اشاره دارد که باید در تصویر حذف شود تا خروجی خام مدل تشخیص تصویر تغییر کند.

برخلاف مطالعات موجود، روش پیشنهادی نیازی به شبکه اضافی ندارد که بسیار سریعتر است و در نظارت تصویری به خوبی کار می کند. به طور رسمی، اجازه دهید $e$ تفسیری از نقشه برجسته تصویر ورودی باشد. سپس نقشه برجستگی به صورت زیر تعریف می شود:

e = Φ (x, m) = x \cdot m + (۱ - m) \cdot r

(۱۵)

جایی که $x$ تصویر ورودی است، $m \in {[0, 1]}^{1 \times H \times W}$ ماسک است، $r$ نشان دهنده تصویر مرجع و $Φ$ عملگر اغتشاش است.

با توجه به سابقه نظارت زمان‌بر چنین بازسازی‌هایی، هدف ما تعیین مینیاتوری‌ترین اشیاء غیرعادی است، بازسازی که به ما امکان می‌دهد خط مشی زیربنایی محاسبه احتمالات خطا را شناسایی کنیم. از این نظر، ما یک ویژگی مهم ماده فعال را که ذاتی آشفتگی ویژگی‌های مکانی-زمانی است در نظر می‌گیریم. به طور دقیق، خطای بازسازی در مکان پیکسل ( x ، y ) در قاب t به صورت زیر محاسبه می شود:

s (x ، y ، t) = ∥ من (x ، y ، t) - f دبلیو (من (x ، y, t)) ∥ ۲ س . تی . من م x ، y = ۱

(۱۶)

جایی که $s$ خطای بازسازی پیکسل است، $f_{W} (\cdot)$ رمزگذار خودکار ذکر شده در بالا است، $I$ مقدار شدت پیکسل نرمال شده است و $I M$ ماتریس هویت برای ارائه محدودیت های فضایی است. علاوه بر این، تعریف مبتنی بر ماسک از یک توضیح با خطاهای بازسازی پیکسل، یک نقشه تفسیر را تشکیل می دهد.

متر * = a r g m i n متر {s + λ \cdot ∥ m ∥ ۱}

(۱۷)

ه * = متر * \cdot x ه * = متر * \cdot x

(۱۸)

مناطق تصویر با رفتار غیرعادی با مقادیر پیکسل بالاتر در ماسک تولید شده مطابقت دارند. با به حداقل رساندن

{‖ m ‖}_{1}

مقادیر پیکسل شی و پس‌زمینه‌ای که با رفتار غیرعادی تداخل دارند، روی ۰ تنظیم می‌شوند. سپس با ضرب ماسک و قاب ویدیوی بازسازی‌شده، نقشه برجسته‌سازی به‌دست می‌آید. در نهایت، نقشه برجسته حداقل منطقه ای را که بر نتیجه تصمیم گیری تأثیر می گذارد حفظ می کند و حداکثر میزان تداخل با اشیاء عجیب را حذف می کند.

خطای بازسازی پیکسل با رابطه (۱۶) محاسبه می شود. سپس، با ترکیب خطای بازسازی پیکسل و توضیح رزرو شده/توضیح حذف شده، ماسک بیشتر با معادله (۱۷) تنظیم می شود. در ماسک، مقدار پیکسل که در آن رفتار غیرعادی رخ می دهد، بسیار زیاد است، در حالی که سایر اشیاء که با موارد عجیب و غریب و منطقه پس زمینه تداخل دارند، روی ۰ تنظیم می شوند. در نهایت، ماسک و قاب بازسازی شده در رابطه (۱۸) ضرب می شوند تا به دست آید. نقشه برجستگی مکانی که رفتار غیرعادی رخ می دهد با توجه به خطای بازسازی پیکسل قرار دارد. سپس از طریق تجزیه و تحلیل زیر مؤلفه ها، بخش مهمی از مدل پیچیده که نقش اساسی در تصمیم گیری ایفا می کند به دست می آید.

محلی سازی ناهنجاری با استفاده از نمره ناهنجاری انجام می شود. برای این منظور، اگر یک شیء شرایط ناهنجاری را در سطح قاب و حداقل برآورده کند، ناهنجاری در نظر گرفته می شود.

α

درصد (یعنی ۶۵٪) از پیکسل های شناسایی شده به عنوان یک ناهنجاری توسط حقیقت پایه پوشش داده شده است.

۴٫ آزمایش و نتایج

۴٫۱٫ مجموعه داده

سه مجموعه داده عمومی برای ارزیابی روش ما استفاده شد: Avenue [ ۵۶ ]، Subway [ ۵۷ ]، و UCSD [ ۵۸ ]]. مجموعه داده‌های آموزشی فقط شامل رویدادهای منظم هستند، در حالی که مجموعه داده‌های آزمایشی حاوی شرایط عادی و غیرعادی هستند. ۲۶ کلیپ ویدیویی آموزشی در مجموعه داده Avenue و ۲۱ کلیپ ویدیویی آزمایشی وجود دارد. مجموعه داده های مترو به دو مجموعه داده، ورودی مترو و خروجی مترو تقسیم می شود. طول کل مجموعه داده های ورودی مترو ۹۶ دقیقه است و ۱۴۴۲۵۱ فریم را در خود جای داده است. کل مدت زمان مجموعه داده خروجی مترو ۴۳ دقیقه است و شامل ۶۴۹۰۳ فریم ویدیو است. مجموعه داده UCSD Ped1 دارای ۳۴ کلیپ ویدیویی آموزشی و ۳۶ کلیپ ویدیویی آزمایشی است. مجموعه داده UCSD Ped2 دارای ۱۶ کلیپ ویدیویی آموزشی و ۱۲ کلیپ ویدیویی آزمایشی است. ما از Ped1 و Ped2 برای نشان دادن UCSD Ped 1 و UCSD Ped 2 و ورودی و خروجی برای نشان دادن ورودی مترو و خروجی مترو استفاده می کنیم.

۴٫۲٫ جزئیات پیاده سازی

آزمایش‌ها بر روی یک پلت‌فرم مجهز به I7 8700K، ۶۴ G RAM و RTX 2080 انجام شد. نرخ خطای برابر (EER)، سطح زیر منحنی (AUC)، و فریم‌ها در ثانیه (FPS) به عنوان معیارهای ارزیابی انتخاب شدند. برای تبدیل ویدیوی خام به ورودی معتبر، رزولوشن ویدیو را به ۲۲۴×۲۲۴ بازنشانی کردیم. سپس، میانگین تصویر کلی را از طریق فیلم آموزشی به دست آوردیم، مقادیر شدت پیکسل فریم ها را کم کردیم و سپس به [۰، ۱]. علاوه بر این، تصاویر به مقیاس خاکستری تبدیل شده و نرمال می شوند تا مقدار میانگین و واریانس واحد صفر داشته باشند.

۴٫۳٫ نتایج و تجزیه و تحلیل

۴٫۳٫۱٫ ارزیابی دقت

ما از AUC و EER (مقدار EER کمتر نشان دهنده عملکرد بهتر) برای مقایسه روش های پیشرفته استفاده کردیم. علاوه بر این، محدودیت‌های مکانی روش خود را حذف می‌کنیم تا مزایایی را که آنها در خطوط ارائه می‌کنند نشان دهیم. میز ۱ارزیابی عملکرد و مقایسه نتایج در سطح چارچوب را خلاصه می کند. مشاهده شد که روش ما بهترین عملکرد AUC را در مجموعه داده های خیابان، ورودی و خروجی به دست می آورد. علاوه بر این، رویکرد ما به بهترین عملکرد EER در مجموعه داده‌های Ped1 و Entrance دست می‌یابد. استراتژی ما انحرافات از نظم را شناسایی می کند، که بسیاری از آنها به عنوان رویدادهای غیرعادی در آن مجموعه داده ها شرح داده نشده اند. در مقابل، رویکردهای رقیب بر شناسایی رویدادهای ناهنجاری متمرکز شده‌اند. توجه داشته باشید که خط مشی ما کمترین پیچیدگی محاسباتی را دارد. نتایج همچنین نشان داد که محدودیت‌های مکانی عملکرد تشخیص را با تمرکز بر ناحیه پویا و فیلتر کردن پیکسل‌های بی‌اهمیت یا تغییرات ناگهانی بهبود می‌بخشد.

علاوه بر این، ما تعداد تشخیص‌های صحیح و آلارم‌های نادرست را با استفاده از مدل پیشنهادی برای ارزیابی تأثیر بر موفقیت یا عدم موفقیت تشخیص در سطح رویداد ثبت کردیم. نتایج در جدول ۲ نشان داده شده است. همانطور که انتظار می رود، روش ما در هر یک از پنج مجموعه داده به صورت رقابتی عمل می کند.

۴٫۳٫۲٫ ارزیابی زمان – هزینه

علاوه بر ارزیابی دقت، ما قابلیت پردازش بلادرنگ رویکرد خود را ارزیابی کردیم. جدول ۳ میانگین زمان محاسبه روش های مختلف (در هر دوره) را نشان می دهد. باز هم، مدل ما از کمترین هزینه زمانی بهتر عمل می کند. توجه داشته باشید که همه آزمایش ها بر روی یک پلت فرم انجام شده است.

برای نشان دادن توانایی روش ما در پردازش فریم‌های ویدئو، ما همچنین نتایج خود را با آن روش‌ها با استفاده از متریک FPS مقایسه می‌کنیم و جدول ۴ FPS را به روش‌های مختلف نشان می‌دهد. در عین حال، اثر تشخیص ما به طور کلی بهتر از الگوریتم های دیگر است. بنابراین، این روش می‌تواند به نظارت کارآمدتر، تشخیص ناهنجاری‌های ویدیویی و موقعیت‌یابی دست یابد و در عین حال تشخیص بلادرنگ را برآورده کند.

۴٫۳٫۳٫ تحلیل کیفی

برای بررسی بیشتر اثربخشی رویکرد ما، ما یک تحلیل کیفی از نمرات منظم ارائه می‌کنیم. شکل ۴ امتیاز منظمی فریم های ویدئویی را در مجموعه داده های عمومی به دست آمده با محاسبه خطاهای بازسازی نشان می دهد. هنگامی که یک ناهنجاری تشخیص داده می شود، نمره نظم به طور قابل توجهی کاهش می یابد. چارچوب ما می تواند نرمال ها را در سطح فریم با امتیاز نظم طبقه بندی کند.

۴٫۳٫۴٫ توضیحات بصری با اغتشاش معنی دار

شکل ۵ و شکل ۶نقشه برجسته به دست آمده از مجموعه داده های آزمایش را نشان می دهد. این شکل‌ها نشان می‌دهند که مدل ما می‌تواند ظواهر بصری و حرکت را بیاموزد و به درک رویدادهای غیرعادی و محلی‌سازی اجسام غیرعادی کمک کند. برای مثال، دویدن عابر پیاده به عنوان یک ناهنجاری در فریم ویدئو ۱ در نظر گرفته می شود. به دلیل پرتاب بسته ها در فریم ویدئو ۲ به عنوان یک ناهنجاری در نظر گرفته می شود. رفتار غیرطبیعی انسان در فریم-۳ و فریم-۴ فیلم، پریدن و دویدن کودکان است. علاوه بر این، عابران پیاده، ماشین‌ها، دوچرخه‌ها و سایر اجسام متحرک مبنای تصمیم‌گیری مدل هستند و نه پس‌زمینه. بر این اساس هر خطای بازسازی ناحیه غیرعادی را مشخص می کند. از نقشه برجستگی، تمرکز مدل در فرآیند تصمیم گیری به دست می آید. به عبارت دیگر می توان مبنای مدل را تعیین کرد. در نتیجه،

در برنامه های نظارتی، تشخیص سطح پیکسل ممکن است ضروری نباشد. تشخیص در سطح شی در عمل بسیار ارزشمند است. برای نشان دادن قابلیت یادگیری در سطح شی روش ما، رویکرد خود را در فریم‌های ویدیویی غیرعادی با نتایج تجسم ویژگی ارزیابی کردیم. ما به طور تصادفی ۵۰۰ فریم ویدیوی ناهنجار را از چهار مجموعه داده فوق انتخاب کردیم که به ترتیب شامل ۷۲۰، ۷۵۶، ۱۰۳۵ و ۸۶۸ شی غیرعادی بود (با برچسب‌گذاری دستی). ما از روش اشاره مبتنی بر انرژی [ ۴۴ ] برای ارزیابی محلی سازی اشیا استفاده می کنیم. در داخل جعبه مرزی، منطقه ۱ است و قسمت بیرونی ۰ است. جدول ۵نتایج تجربی تشخیص سطح شی را فهرست می کند. این بدان معنی است که اغتشاش معنی دار دارای پتانسیل عالی برای تشخیص ناهنجاری در سطح شی است که عملی بودن وظایف نظارت بر جمعیت را نشان می دهد.

۴٫۳٫۵٫ تحلیل و بررسی

به طور خلاصه، نتایج تجربی بالا نشان می‌دهد که: (۱) رمزگذار خودکار دو بعدی با محدودیت‌های فضایی می‌تواند تا حد زیادی از عملکرد تشخیص ناهنجاری سود ببرد. (۲) ادغام رتبه تقریبی می تواند با سرعت بسیار بالا اجرا شود. تجمع خودکار رمزگذارهای سبک وزن پتانسیل برجسته ای را برای تشخیص ناهنجاری جمعیت نشان می دهد. و (۳) اغتشاش معنی دار همچنین می تواند برای تشخیص ناهنجاری به دلیل دید قدرتمند و سهولت عمل مفید باشد.

۵٫ نتیجه گیری ها

انفجار داده ها چالش ها و فرصت هایی را برای جامعه اطلاعات جغرافیایی ایجاد کرده است. GIS باید گسترش یابد تا مشاهدات دینامیکی حسگرها از جمله نظارت تصویری را در خود جای دهد. ما یک چارچوب سبک وزن جدید برای تشخیص ناهنجاری نشان داده‌ایم، که چالش‌های تشخیص ناهنجاری جمعیت را با: (۱) نگاشت توالی‌های ویدئویی سه بعدی به یک رمزگذار خودکار دو بعدی با یک تقریب‌کننده نشان داده‌ایم. (۲) محدود کردن مکان جستجو با محدودیت‌های مکانی برای کاهش هشدارهای ناهنجاری مثبت کاذب. (۳) پرداختن به تقاضا برای “توضیح” با ترکیب اغتشاش معنی دار به عنوان توضیحات بصری اضافی برای شبکه عصبی، بهبود اعتبار نتایج تجربی، و ارائه مبنای قابل اعتمادتری برای تصمیم گیری.

مطالعه ما دارای محدودیت‌هایی است، به ویژه اینکه مرحله محدودیت‌های فضایی محدود به سناریوهایی است که منطقه شلوغ نمی‌تواند فضای تصویر را پر کند. علاوه بر این، ناهنجاری های تکرار شونده حفظ نمی شود تا به ناهنجاری های طولانی مدت حساس نباشد. محدودیت دیگر مربوط به روابط بین الگوهای استاندارد و ناهنجاری هایی است که درهم پیچیده و وابسته به یکدیگر هستند. بنابراین، نیاز به ایجاد ارتباطات فردی دارد.

در نتیجه، چارچوب پیشنهادی از سه بلوک کلیدی تشکیل شده است. اول، رمزگذار خودکار مکانی-زمانی برای آشکار کردن ویژگی‌های حرکت و ظاهر طراحی شده است. دوم، تقریب‌کننده نقشه پویا برای ثبت دینامیک ویدئو و ارائه محدودیت‌های فضایی برای فریم‌های ویدئویی بازسازی‌شده در نظر گرفته شده است. علاوه بر این، بلوک محلی‌سازی یک روش مبتنی بر اغتشاش معنی‌دار برای تفسیر post hoc برای شبکه است. در نهایت، راه های هیجان انگیز مختلفی برای تحقیقات بیشتر وجود دارد. یکی از جهت‌گیری‌های کار آینده، نمایش روابط مکانی-زمانی بین فعالیت‌های شی و تغییرات قابل مشاهده و گسترش GIS برای تطبیق بهتر مشاهدات پویا است. یکی دیگر از رویکردهای ممکن برای تحقیقات آینده، مطالعه توانایی سرویس یکنواخت برای کاربردهای عملی است.

منابع

ژو، ی. کین، ام. وانگ، ایکس. Zhang, C. تجزیه و تحلیل وضعیت جمعیت منطقه ای بر اساس GeoVideo و همکاری داده های چند رسانه ای. در مجموعه مقالات چهارمین کنفرانس مدیریت اطلاعات پیشرفته، ارتباطات، کنترل الکترونیک و اتوماسیون IEEE 2021 (IMCEC)، چونگ کینگ، چین، ۱۸ تا ۲۰ ژوئن ۲۰۲۱؛ ص ۱۲۷۸–۱۲۸۲٫ [ Google Scholar ]
پیدهورسکی، اس. المحسن، ر. دورتو، جی. تشخیص تازگی احتمالی با رمزگذارهای خودکار متخاصم. در مجموعه مقالات سی و دومین کنفرانس سیستم های پردازش اطلاعات عصبی (NeurIPS 2018)، مونترال، QC، کانادا، ۳ تا ۸ دسامبر ۲۰۱۸؛ جلد ۳۱، ص ۶۸۲۲–۶۸۳۳٫ [ Google Scholar ]
فن، اس. Meng, F. الگوریتم پیش‌بینی ویدیویی و تشخیص ناهنجاری مبتنی بر تمایز دوگانه. در مجموعه مقالات پنجمین کنفرانس بین المللی ۲۰۲۰ در زمینه هوش محاسباتی و کاربردها (ICCIA)، پکن، چین، ۱۹ تا ۲۱ ژوئن ۲۰۲۰؛ صص ۱۲۳-۱۲۷٫ [ Google Scholar ]
وانگ، تی. کیائو، م. لین، ز. لی، سی. سنوسی، ح. لیو، ز. چوی، سی. شبکه های عصبی مولد برای تشخیص ناهنجاری در صحنه های شلوغ. IEEE Trans. Inf. پزشکی قانونی امن. ۲۰۱۸ ، ۱۴ ، ۱۳۹۰–۱۳۹۹٫ [ Google Scholar ] [ CrossRef ]
گونگ، دی. لیو، ال. لی، وی. سها، بی. منصور، آقا؛ ونکاتش، س. هنگل، AVD به خاطر سپردن نرمال بودن برای تشخیص ناهنجاری: رمزگذار خودکار عمیق تقویت شده با حافظه برای تشخیص ناهنجاری بدون نظارت. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، ۲۷ اکتبر تا ۲ نوامبر ۲۰۱۹؛ صفحات ۱۷۰۵-۱۷۱۴٫ [ Google Scholar ]
وو، اچ. نگوین، تی دی؛ تراورس، ا. ونکاتش، س. Phung, D. تشخیص ناهنجاری موضعی مبتنی بر انرژی در نظارت تصویری. در کنفرانس اقیانوس آرام-آسیا در مورد کشف دانش و داده کاوی ؛ Springer: Cham، آلمان، ۲۰۱۷; صص ۶۴۱-۶۵۳٫ [ Google Scholar ]
لیو، دبلیو. لو، دبلیو. لیان، دی. گائو، اس. پیش‌بینی قاب آینده برای تشخیص ناهنجاری-یک پایه جدید. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸؛ صص ۶۵۳۶–۶۵۴۵٫ [ Google Scholar ]
بابایی زاده، م. فین، سی. ایرهان، د. کمپبل، RH; لوین، اس. پیش بینی ویدئویی تغییرات تصادفی. arXiv ۲۰۱۷ , arXiv:1710.11252. [ Google Scholar ]
کاسترجون، ال. بالاس، ن. Courville، A. VRNN های شرطی بهبود یافته برای پیش بینی ویدیو. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، ۲۷ اکتبر تا ۲ نوامبر ۲۰۱۹؛ ص ۷۶۰۸-۷۶۱۷٫ [ Google Scholar ]
دوست خوب، من. پوگت ابادی، ج. میرزا، م. خو، بی. وارد-فارلی، دی. اوزایر، س. کورویل، آ. Bengio، Y. شبکه های متخاصم مولد. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی (NeurIPS 2014)، مونترال، QC، کانادا، ۸ تا ۱۳ دسامبر ۲۰۱۴٫ جلد ۲، ص ۲۶۷۲–۲۶۸۰٫ [ Google Scholar ]
گوسیخا، دی. ابیرمی، س. Baskaran, R. تجزیه و تحلیل خودکار رفتار انسان از فیلم های نظارتی: یک نظرسنجی. آرتیف. هوشمند Rev. ۲۰۱۴ , ۴۲ , ۷۴۷-۷۶۵٫ [ Google Scholar ] [ CrossRef ]
اوجه، س. Sakhare, S. تکنیک های پردازش تصویر برای ردیابی اشیا در نظارت تصویری – یک بررسی. در مجموعه مقالات کنفرانس بین المللی ۲۰۱۵ در محاسبات فراگیر (ICPC)، پونا، هند، ۸ تا ۱۰ ژانویه ۲۰۱۵٫ صص ۱-۶٫ [ Google Scholar ]
کیران، BR; توماس، دی.م. Parakkal, R. مروری بر روش های مبتنی بر یادگیری عمیق برای تشخیص ناهنجاری بدون نظارت و نیمه نظارت در فیلم ها. J. Imaging ۲۰۱۸ ، ۴ ، ۳۶٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
کنگ، ی. یوان، جی. لیو، جی. هزینه بازسازی پراکنده برای تشخیص رویدادهای غیرعادی. در مجموعه مقالات کنفرانس IEEE 2011 در مورد دید کامپیوتری و تشخیص الگو (CVPR)، کلرادو اسپرینگز، CO، ایالات متحده آمریکا، ۲۰-۲۵ ژوئن ۲۰۱۱٫ صص ۳۴۴۹–۳۴۵۶٫ [ Google Scholar ]
لیو، سی. غسال، س. جیانگ، ز. سرکار، اس. یک رویکرد مدلسازی گرافیکی فضایی-زمانی بدون نظارت برای تشخیص ناهنجاری در CPS توزیع شده. در مجموعه مقالات هفتمین کنفرانس بین المللی ACM/IEEE 2016 در مورد سیستم های فیزیکی-سایبری (ICCPS)، وین، اتریش، ۱۱ تا ۱۴ آوریل ۲۰۱۶؛ صص ۱-۱۰٫ [ Google Scholar ]
ژو، اس. شن، دبلیو. زنگ، دی. نیش، م. وی، ی. Zhang، Z. شبکه های عصبی کانولوشنال مکانی-زمانی برای تشخیص ناهنجاری و محلی سازی در صحنه های شلوغ. فرآیند سیگنال اشتراک تصویر. ۲۰۱۶ ، ۴۷ ، ۳۵۸-۳۶۸٫ [ Google Scholar ] [ CrossRef ]
کنگ، ی. یوان، جی. Tang, Y. جستجوی ناهنجاری ویدیویی در صحنه‌های شلوغ از طریق زمینه حرکت مکانی-زمانی. IEEE Trans. Inf. پزشکی قانونی امن. ۲۰۱۳ ، ۸ ، ۱۵۹۰-۱۵۹۹٫ [ Google Scholar ] [ CrossRef ]
یوان، ی. وانگ، دی. وانگ، Q. تشخیص ناهنجاری در صحنه های ترافیکی از طریق بازسازی حرکت آگاهانه فضایی. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۱۶ ، ۱۸ ، ۱۱۹۸-۱۲۰۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
چو، دبلیو. ژو، اچ. یائو، سی. Cai, D. آموزش ویژگی مکانی-زمانی هدایت شده کدگذاری پراکنده برای تشخیص رویدادهای غیرعادی در ویدیوهای بزرگ. IEEE Trans. چند رسانه ای ۲۰۱۹ ، ۲۱ ، ۲۴۶-۲۵۵٫ [ Google Scholar ] [ CrossRef ]
ژو، JT; دو، ج. زو، اچ. پنگ، ایکس. لیو، ی. Goh، RSM AnomalyNet: یک شبکه تشخیص ناهنجاری برای نظارت تصویری. IEEE Trans. Inf. پزشکی قانونی امن. ۲۰۱۹ ، ۱۴ ، ۲۵۳۷–۲۵۵۰٫ [ Google Scholar ] [ CrossRef ]
یوان، ی. فنگ، ی. لو، ایکس. آشکارساز فرضیه آماری برای تشخیص رویدادهای غیرعادی در صحنه های شلوغ. IEEE Trans. سایبرن. ۲۰۱۷ ، ۴۷ ، ۳۵۹۷-۳۶۰۸٫ [ Google Scholar ] [ CrossRef ]
حسن، م. چوی، جی. نویمان، جی. روی-چودری، AK; دیویس، LS نظم زمانی یادگیری در توالی های ویدیویی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ صص ۷۳۳-۷۴۲٫ [ Google Scholar ]
تودور یونسکو، آر. اسموریانو، اس. الکس، بی. پوپسکو، ام. افشای نقاب از رویدادهای غیرعادی در ویدئو. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صص ۲۹۱۴–۲۹۲۲٫ [ Google Scholar ]
خو، دی. یان، ی. ریچی، ای. Sebe, N. تشخیص رویدادهای غیرعادی در ویدیوها با یادگیری بازنمایی عمیق ظاهر و حرکت. محاسبه کنید. Vis. تصویر زیر. ۲۰۱۷ ، ۱۵۶ ، ۱۱۷-۱۲۷٫ [ Google Scholar ] [ CrossRef ]
لو، دبلیو. لیو، دبلیو. گائو، اس. یادآوری تاریخ با LSTM کانولوشن برای تشخیص ناهنجاری. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در چند رسانه و نمایشگاه (ICME)، هنگ کنگ، چین، ۱۰ تا ۱۴ ژوئیه ۲۰۱۷؛ صص ۴۳۹-۴۴۴٫ [ Google Scholar ]
وانگ، ال. ژو، اف. لی، ز. زو، دبلیو. Tan, H. تشخیص رویداد غیرعادی در ویدیوها با استفاده از رمزگذار خودکار مکانی-زمانی ترکیبی. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی IEEE در مورد پردازش تصویر (ICIP)، آتن، یونان، ۷ تا ۱۰ اکتبر ۲۰۱۸؛ ص ۲۲۷۶-۲۲۸۰٫ [ Google Scholar ]
پیپی، ز. چینگهای، دی. هایبو، ال. Xinglin، H. تشخیص ناهنجاری و مکان در فیلم‌های نظارت شلوغ. Acta Opt. گناه ۲۰۱۸ ، ۳۸ ، ۹۷-۱۰۵٫ [ Google Scholar ]
لی، ایکس. چن، ام. وانگ، کیو. کمی سازی و تشخیص حرکت جمعی در صحنه های جمعی. IEEE Trans. فرآیند تصویر ۲۰۲۰ ، ۲۹ ، ۵۵۷۱-۵۵۸۳٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
لیو، ی. هان، ز. ژونگ، جی. لی، سی. Liu, Z. تشخیص ناهنجاری عمومی مولفه‌های پشتیبانی زنجیره‌ای بر اساس شبکه‌های متخاصم مولد. IEEE Trans. ساز. Meas. ۲۰۱۹ ، ۶۹ ، ۲۴۳۹–۲۴۴۸٫ [ Google Scholar ] [ CrossRef ]
وانگ، سی. یائو، ی. یائو، اچ. روش تشخیص ناهنجاری ویدیویی بر اساس پیش‌بینی فریم آینده و مکانیسم توجه. در مجموعه مقالات یازدهمین کارگاه و کنفرانس سالانه محاسبات و ارتباطات (CCWC) 2021 IEEE، به صورت آنلاین. ۲۷–۳۰ ژانویه ۲۰۲۱؛ ص ۴۰۵-۴۰۷٫ [ Google Scholar ]
سابکرو، م. فیاض، م. فتحی، م. مؤید، ز. Klette, R. Deep-anomaly: شبکه عصبی کاملاً کانولوشن برای تشخیص سریع ناهنجاری در صحنه های شلوغ. محاسبه کنید. Vis. تصویر زیر. ۲۰۱۸ ، ۱۷۲ ، ۸۸-۹۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
یان، اس. اسمیت، جی اس. لو، دبلیو. Zhang، B. تشخیص رویداد غیرعادی از ویدیوها با استفاده از رمزگذار خودکار متغیر متغیر دو جریانی. IEEE Trans. شناخت. توسعه دهنده سیستم ۲۰۲۰ ، ۱۲ ، ۳۰-۴۲٫ [ Google Scholar ] [ CrossRef ]
پراویرو، اچ. پنگ، جی دبلیو. پان، TY; تشخیص رویداد غیرعادی Hu، MC در ویدیوهای نظارتی با استفاده از رمزگشای دو جریانی. در مجموعه مقالات کنفرانس بین المللی IEEE 2020 در کارگاه های آموزشی چند رسانه ای و نمایشگاهی (ICMEW)، لندن، بریتانیا، ۶ تا ۱۰ ژوئیه ۲۰۲۰؛ صص ۱-۶٫ [ Google Scholar ]
ناواراتنه، آر. الهاکون، د. دی سیلوا، دی. Yu, X. تشخیص ناهنجاری فضایی-زمانی با استفاده از یادگیری عمیق برای نظارت تصویری در زمان واقعی. IEEE Trans. Ind. اطلاع رسانی. ۲۰۲۰ ، ۱۶ ، ۳۹۳-۴۰۲٫ [ Google Scholar ] [ CrossRef ]
طارق، س. فاروق، ح. جلیل، ع. Wasif، تشخیص ناهنجاری SM با فیلتر ذرات برای نظارت تصویری آنلاین. دسترسی IEEE ۲۰۲۱ ، ۹ ، ۱۹۴۵۷-۱۹۴۶۸٫ [ Google Scholar ]
زو، ی. Newsam، ویژگی S. Motion-aware برای بهبود تشخیص ناهنجاری ویدیویی. arXiv ۲۰۱۹ ، arXiv:1907.10211. [ Google Scholar ]
سابکرو، م. فیاض، م. فتحی، م. Klette، R. Deep-Cascade: شبکه های عصبی عمیق سه بعدی آبشاری برای تشخیص سریع ناهنجاری و محلی سازی در صحنه های شلوغ. IEEE Trans. فرآیند تصویر ۲۰۱۷ ، ۲۶ ، ۱۹۹۲-۲۰۰۴٫ [ Google Scholar ] [ CrossRef ]
Lv، H.; ژو، سی. کوی، ز. خو، سی. لی، ی. یانگ، جی. محلی‌سازی ناهنجاری‌ها از ویدیوهای دارای برچسب ضعیف. IEEE Trans. فرآیند تصویر ۲۰۲۱ ، ۳۰ ، ۴۵۰۵-۴۵۱۵٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
احمد، ع. ساجان، ک.اس. سریواستاوا، ا. Wu, Y. تشخیص ناهنجاری، محلی‌سازی و طبقه‌بندی با استفاده از جریان‌های داده Synchrophasor Drifting. IEEE Trans. شبکه هوشمند. ۲۰۲۱ ، ۱۲ ، ۳۵۷۰-۳۵۸۰٫ [ Google Scholar ] [ CrossRef ]
گانوکراتانا، تی. آرامویت، س. Sebe, N. تشخیص ناهنجاری بدون نظارت و محلی سازی بر اساس شبکه ترجمه عمیق فضایی-زمانی. دسترسی IEEE ۲۰۲۰ ، ۸ ، ۵۰۳۱۲–۵۰۳۲۹٫ [ Google Scholar ] [ CrossRef ]
محمد، ک. احمد، ج. Lv، Z. بلاویستا، پ. یانگ، پی. Baik، SW Efficient Deep Deep-based CNN-Fire Detection and Localization در برنامه های نظارت تصویری. IEEE Trans. سیستم مرد سایبرن. سیستم ۲۰۱۹ ، ۴۹ ، ۱۴۱۹-۱۴۳۴٫ [ Google Scholar ] [ CrossRef ]
کویل، دی. Weller, A. «تبیین» یادگیری ماشینی چالش‌های خط‌مشی را آشکار می‌کند. Science ۲۰۲۰ ، ۳۶۸ ، ۱۴۳۳-۱۴۳۴٫ [ Google Scholar ] [ CrossRef ]
هو، بی جی; ژو، یادگیری ZH با ساختار قابل تفسیر از Gated RNN. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم ۲۰۲۰ ، ۳۱ ، ۲۲۶۷-۲۲۷۹٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
سلواراجو، آر.آر. کگزول، ام. داس، ا. ودانتام، ر. پریخ، د. Batra, D. Grad-cam: توضیحات بصری از شبکه های عمیق از طریق محلی سازی مبتنی بر گرادیان. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صص ۶۱۸-۶۲۶٫ [ Google Scholar ]
جیانگ، PT; ژانگ، CB; هو، کیو. چنگ، MM; Wei, Y. LayerCAM: بررسی نقشه‌های فعال‌سازی کلاس سلسله مراتبی برای محلی‌سازی. IEEE Trans. فرآیند تصویر ۲۰۲۱ ، ۳۰ ، ۵۸۷۵-۵۸۸۸٫ [ Google Scholar ] [ CrossRef ]
وانگ، اچ. وانگ، ز. دو، م. یانگ، اف. ژانگ، ز. دینگ، اس. مردزیل، پ. Hu, X. Score-CAM: توضیحات بصری با وزن برای شبکه های عصبی کانولوشن. در مجموعه مقالات کنفرانس IEEE/CVF در کارگاه های آموزشی بینایی رایانه و تشخیص الگو، سیاتل، WA، ایالات متحده آمریکا، ۱۴ تا ۱۹ ژوئن ۲۰۲۰؛ ص ۲۴-۲۵٫ [ Google Scholar ]
چن، جی. لی، SE; تومیزوکا، ام. رانندگی خودکار شهری سرتاسر قابل تفسیر با یادگیری تقویتی عمیق نهفته. IEEE Trans. هوشمند ترانسپ سیستم ۲۰۲۱ ، ۱-۱۱٫ [ Google Scholar ] [ CrossRef ]
لیپتون، ZC افسانه های تفسیرپذیری مدل. اشتراک. ACM ۲۰۱۶ ، ۶۱ ، ۳۶-۴۳٫ [ Google Scholar ] [ CrossRef ]
باو، دی. ژو، بی. خسلا، ع. اولیوا، ا. Torralba، A. تشریح شبکه: کمیت تفسیرپذیری بازنمایی‌های بصری عمیق. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۷؛ صص ۶۵۴۱–۶۵۴۹٫ [ Google Scholar ]
فن، م. وی، دبلیو. Xie، X. لیو، ی. گوان، ایکس. لیو، تی. آیا می‌توانیم به توضیحات شما اعتماد کنیم؟ بررسی سلامت برای مترجمان در تجزیه و تحلیل بدافزار اندروید. IEEE Trans. Inf. امنیت پزشکی قانونی ۲۰۲۱ ، ۱۶ ، ۸۳۸-۸۵۳٫ [ Google Scholar ] [ CrossRef ]
بیلن، اچ. فرناندو، بی. گاووس، ای. Vedaldi، A. Action Recognition with Dynamic Image Network. IEEE Trans. الگوی مقعدی ۲۰۱۸ ، ۴۰ ، ۲۷۹۹–۲۸۱۳٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
Fong، RC; ودالدی، ا. توضیحات قابل تفسیر جعبه‌های سیاه با اغتشاش معنادار. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صص ۳۴۲۹–۳۴۳۷٫ [ Google Scholar ]
دابکوفسکی، پ. Gal, Y. برجسته بودن تصویر در زمان واقعی برای طبقه‌بندی‌کننده‌های جعبه سیاه. در مجموعه مقالات سی و یکمین کنفرانس سیستم های پردازش اطلاعات عصبی (NIPS 2017)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۴ تا ۹ دسامبر ۲۰۱۷؛ پ. ۳۰٫ [ Google Scholar ]
واگنر، جی. کوهلر، جی.ام. گیندل، تی. هتزل، ال. Wiedemer, JT; Behnke, S. توضیحات بصری قابل تفسیر و ریز برای شبکه های عصبی کانولوشن. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ ص ۹۰۹۷–۹۱۰۷٫ [ Google Scholar ]
رائو، ز. او، م. Zhu, Z. ورودی-آشفتگی-حساسیت برای تجزیه و تحلیل عملکرد CNNS در تشخیص تصویر. در مجموعه مقالات کنفرانس بین المللی IEEE 2019 در مورد پردازش تصویر (ICIP)، تایپه، تایوان، ۲۲ تا ۲۵ سپتامبر ۲۰۱۹؛ ص ۲۴۹۶–۲۵۰۰٫ [ Google Scholar ]
لو، سی. شی، ج. Jia, J. تشخیص رویداد غیرعادی با سرعت ۱۵۰ فریم در ثانیه در متلب. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، سیدنی، NSW، استرالیا، ۱-۸ دسامبر ۲۰۱۳٫ صص ۲۷۲۰–۲۷۲۷٫ [ Google Scholar ]
آدم، ا. ریولین، ای. شیمشونی، آی. Reinitz، D. شناسایی رویدادهای غیرمعمول در زمان واقعی با استفاده از مانیتورهای چندگانه مکان ثابت. IEEE Trans. الگوی مقعدی ۲۰۰۸ ، ۳۰ ، ۵۵۵-۵۶۰٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
ماهادوان، وی. لی، دبلیو. بالودیا، وی. Vasconcelos، N. تشخیص ناهنجاری در صحنه های شلوغ. در مجموعه مقالات کنفرانس IEEE Computer Society در سال ۲۰۱۰ در مورد دید رایانه و تشخیص الگو، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، ۱۳ تا ۱۸ ژوئن ۲۰۱۰٫ صفحات ۱۹۷۵-۱۹۸۱٫ [ Google Scholar ]
سینگ، دی. Mohan، CK Deep Spatio-Temporal Representation برای تشخیص تصادفات جاده ای با استفاده از رمزگذار خودکار پشته ای. IEEE Trans. هوشمند ترانسپ ۲۰۱۹ ، ۲۰ ، ۸۷۹–۸۸۷٫ [ Google Scholar ] [ CrossRef ]

شکل ۱٫ فرآیند تشخیص ناهنجاری ویدئویی. فرآیند تشخیص از طریق رمزگذار خودکار فضایی و زمانی و تقریب‌کننده تصویر پویا به دست می‌آید. امتیاز منظمی رویداد غیرعادی را تشخیص می دهد. سپس مدل با روش آشفتگی بصری ساده توضیح داده می شود.

شکل ۲٫ معماری رمزگذار خودکار مکانی-زمانی با یک تقریبگر تصویر پویا. تصویر پویا یک قانون فضایی برای تصاویر بازسازی شده ارائه می دهد.

شکل ۳٫ تصویر پویا و ماتریس هویت به ترتیب در سمت چپ و راست قرار دارند.

شکل ۴٫ امتیاز نظم در مجموعه داده های عمومی. منحنی آبی مقدار امتیاز نظم را نشان می‌دهد، در حالی که مناطق سایه‌دار قرمز، فریم‌های حقیقت زمینی رویدادهای غیرعادی را نشان می‌دهند. هنگامی که ناهنجاری رخ می دهد، نمره نظم به طور قابل توجهی کاهش می یابد. ( الف ) مجموعه داده خیابان در دنباله #۰۱ و #۱۴٫ ( ب ) مجموعه داده UCSD Ped1 در دنباله #۰۱ و #۲۰٫ ( ج ) مجموعه داده ورودی مترو در دنباله #۰۱ و #۰۶٫ و ( د ) مجموعه داده خروجی مترو در دنباله شماره ۰۱ و ۰۳٫

شکل ۵٫ مقایسه با سایر روش های برجسته در مجموعه داده Avenue. از چپ به راست: قاب ویدیوی غیرعادی اصلی، برجستگی Gradient-CAM [ ۷ ]، برجستگی LayerCAM [ ۴۴ ]، برجسته بودن Score-CAM [ ۴۸ ] و روش ما. جعبه مرزی اشیاء عجیب و غریبی که توسط این رویکرد آموخته شده را توضیح می دهد.

شکل ۶٫ مقایسه با سایر روش های برجسته در مجموعه داده Ped1. از چپ به راست: قاب ویدیوی غیرعادی اصلی، برجستگی Gradient-CAM [ ۷ ]، برجستگی LayerCAM [ ۴۴ ]، برجسته بودن Score-CAM [ ۴۸ ] و روش ما. جعبه مرزی اشیاء عجیب و غریبی که توسط این رویکرد آموخته شده را توضیح می دهد.

ونوس نصیرفام

13 ژانویه 2023

مقالات