استخراج اطلاعات مکانی – زمانی اشیاء بر اساس ویدئوهای نظارتی و مدل سطح دیجیتال

سیستم های نظارتی بر روی خود تصویر تمرکز می کنند، عمدتاً از منظر دید کامپیوتری که فاقد یکپارچگی با اطلاعات جغرافیایی است. به‌دست آوردن مکان، اندازه و سایر اطلاعات فضایی اشیاء متحرک از سیستم‌های نظارتی که فاقد هر گونه توانایی مرتبط با محیط جغرافیایی هستند، دشوار است. برای غلبه بر چنین محدودیت‌هایی، ما چارچوب تلفیقی از اطلاعات جغرافیایی سه‌بعدی و اجسام متحرک را در ویدیوی نظارتی پیشنهاد می‌کنیم که ایده‌هایی را برای تحقیقات مرتبط ارائه می‌دهد. ما یک چارچوب کلی پیشنهاد می‌کنیم که می‌تواند اطلاعات مکانی-زمانی اشیاء را استخراج کند و مسیرهای شی را در یک مدل سه‌بعدی تجسم کند. این چارچوب به الگوریتم‌های خاصی برای تعیین مدل دوربین، استخراج شی یا مدل نقشه‌برداری متکی نیست. در آزمایش ما، ما از روش کالیبراسیون Zhang Zhengyou و روش EPNP برای تعیین مدل دوربین، YOLOv5 و عمیق SORT برای استخراج اشیاء از یک ویدیو، و یک تقاطع پرتو تصویربرداری با مدل سطح دیجیتال برای مکان یابی اشیا در صحنه جغرافیایی سه بعدی استفاده کردیم. نتایج تجربی نشان می‌دهد که وقتی جعبه مرزی بتواند کل جسم را به طور کامل ترسیم کند، حداکثر خطا و ریشه میانگین مربعات خطای موقعیت مسطح به ترتیب در ۳۱ سانتی‌متر و ۱۰ سانتی‌متر و در ارتفاع به ترتیب در ۱۰ سانتی‌متر و ۳ سانتی‌متر قرار دارند. . خطای میانگین عرض و ارتفاع اجسام متحرک به ترتیب در محدوده ۵ سانتی متر و ۲ سانتی متر است که با واقعیت مطابقت دارد. طبق دانش ما، ابتدا چارچوب همجوشی عمومی را پیشنهاد کردیم. این مقاله راه حلی برای ادغام اطلاعات جغرافیایی سه بعدی و ویدئوهای نظارتی ارائه می دهد.

کلید واژه ها:

همجوشی ; ویدئو نظارت ؛ اطلاعات جغرافیایی سه بعدی ؛ نقشه برداری ; جسم متحرک ؛ DSM

۱٫ مقدمه

نظارت تصویری بی‌درنگ نقش مهمی را در پیشگیری از جرم، کنترل ترافیک، نظارت بر محیط‌زیست، تهدیدات تروریستی و مدیریت شهر ایفا می‌کند [ ۱ ]. نظارت تصویری ابزاری مؤثر برای نظارت در زمان واقعی ۲۴ هکتار در روز است [ ۲ ]، و دوربین ها اندام های بصری شهرهای هوشمند هستند [ ۳ ]. این دوربین ها حجم زیادی از داده های ویدئویی را جمع آوری می کنند و استخراج اطلاعات مفید از داده های انبوه ضروری است. بینایی کامپیوتری جایگزین چشم انسان برای تشخیص بصری، ردیابی و اندازه‌گیری اشیاء ویدئویی می‌شود [ ۴ ]]. در سال های اخیر، تشخیص و ردیابی اشیا به کانون تحقیقاتی و مرزی در زمینه بینایی کامپیوتر تبدیل شده است. با این حال، به دلیل تأثیر بسیاری از عوامل، مانند انسداد، تاری حرکت، تغییر روشنایی، تغییر مقیاس و غیره، تشخیص اشتباه و تطبیق اشتباه همچنان در ردیابی چند شی رخ می دهد. علاوه بر این، سیستم‌های نظارت تصویری هر دوربین را به یک مانیتور مربوطه در مرکز کنترل متصل می‌کنند که نمی‌تواند رابطه فضایی بین دوربین‌های مختلف را در صحنه جغرافیایی منعکس کند. بنابراین، ناظران ویدئویی باید منطقه نظارت را درک کنند تا تصاویر روی هر مانیتور را به صورت ذهنی به منطقه مربوطه در دنیای واقعی نگاشت کنند [ ۵ ]]. وقتی دوربین های کافی وجود داشته باشد، شکی نیست که یک چالش قابل توجه است. در عین حال، با توسعه سریع فناوری نقشه برداری و نقشه برداری، مردم الزامات بالاتری را برای بیان موجودات جغرافیایی فضایی مطرح می کنند. عناصر کاربردی و خلاقانه‌تر مانند نمای خیابان، تصاویر سنجش از دور و مدل‌های سه‌بعدی در نقشه‌سازی ادغام می‌شوند و بیان بصری نقشه را افزایش می‌دهند. با این حال، اطلاعات جغرافیایی کنونی هنوز عمدتاً توسط اشیاء ایستا نشان داده می شود. داده های اصلی اطلاعات جغرافیایی باید از قبل اندازه گیری شده و در پایگاه داده ذخیره شوند، که با دقت بالا، چارچوب مختصات یکپارچه و عملکرد در زمان واقعی ضعیف مشخص می شود.

بر اساس تجزیه و تحلیل فوق، داده های ویدئویی بصری، آموزنده و بسیار زائد هستند، اما می توانند حرکت اجسام متحرک، مانند وسایل نقلیه و عابران پیاده را در زمان واقعی ضبط کنند. با این حال، اطلاعات جغرافیایی فقط می‌تواند فضای استاتیک جغرافیایی را در ویدیوی نظارتی بیان کند. نحوه توصیف اجسام متحرک در یک ویدیوی نظارتی در یک چارچوب جغرافیایی ثابت موضوعی است که ارزش مطالعه دارد. GIS به عنوان یک چارچوب مرجع کلی پیشنهاد شد که همه دوربین‌ها را می‌توان به آن نقشه‌برداری کرد [ ۶]. این چارچوب نه تنها یک مرجع فضایی یکپارچه ارائه می‌کند، بلکه اطلاعات معنایی غنی را نیز ارائه می‌کند که همکاری چند دوربینی و ردیابی شی را تسهیل می‌کند. ادغام اطلاعات جغرافیایی استاتیک و ویدیوی پویا، بیان اجسام متحرک را در یک ویدیوی نظارتی تحت یک چارچوب با دقت بالا و یکپارچه امکان پذیر می کند. ادغام این دو نه تنها پشتیبانی از داده ها و تضمینی برای صنایع (زمینه ها) بیشتر، مقیاس های بزرگتر (فضا و زمان) و ابعاد بیشتر تحقیقات یادگیری عمیق را فراهم می کند، بلکه این کلان داده ها با یک پایه زمانی یکپارچه و چارچوب مرجع جغرافیایی و رابطه منطقی ذاتی، بدون شک تأثیر عمیقی در توسعه نقشه برداری و نقشه برداری خواهد داشت.

برخی از محققان و دست اندرکاران صنعت در داخل و خارج از کشور تحقیقاتی در این زمینه انجام داده اند، اما هنوز مشکلاتی وجود دارد. از نظر ژئوفضایی سازی ویدئویی، بسیاری از مطالعات تحقیقاتی بر اساس فرض یک زمین مسطح در فضای جغرافیایی است. رابطه نقشه برداری بین تصاویر و دنیای واقعی از طریق یک ماتریس هموگرافی [ ۷ ، ۸ ]، یعنی از یک تصویر دو بعدی به فضای دو بعدی برقرار می شود. روش مبتنی بر ماتریس هموگرافی برای صحنه های بزرگ مقیاس یا صحنه هایی با زمین پیچیده مناسب نیست. در جنبه همجوشی، تحقیق نسبتاً پراکنده است، زیرا برای ردیابی اشیاء چند دوربینی [ ۹ ]، جستجوی مسیر [ ۱۰ ]، مدیریت داده‌های قطعه ویدیویی [ ۱۱ ] استفاده می‌شود.]، خلاصه های ویدئویی [ ۱۲ ]، جمعیت شماری [ ۱۳ ] و غیره. دنیای واقعی کنونی به سرعت در حال توسعه و تغییر است و نحوه بیان و تشخیص کامل آن بسیار مهم است. مدل واقعی شهر سه بعدی (۳DCM) به کانون تحقیقات فعلی نقشه برداری و نقشه برداری تبدیل شده است. صحنه جغرافیایی سه بعدی تقاضای توسعه اطلاعات جغرافیایی در حال حاضر است. واضح است که ادغام اجسام متحرک و صحنه های جغرافیایی ایستا دوبعدی نمی تواند پاسخگوی این تقاضا باشد. بررسی ادغام موثر اجسام متحرک در یک ویدیوی نظارتی و یک صحنه جغرافیایی ایستا سه بعدی به مشکلی تبدیل شده است که در حال حاضر قابل حل است.

در این کار، تحقیق ما عمدتاً شامل سه بخش است. در مرحله اول، ما اشیاء را بر اساس یادگیری عمیق شناسایی و ردیابی می کنیم تا اطلاعات شی را در تصویر بدست آوریم. دوم، ما به مدل سطح دیجیتال با دقت بالا (DSM) برای ایجاد مدل نقشه برداری بین ویدیوی نظارتی و فضای جغرافیایی سه بعدی، یعنی از تصاویر دو بعدی تا فضای سه بعدی، تکیه می کنیم. ثالثاً، بر اساس مدل نقشه برداری، اطلاعات مکانی – زمانی اشیاء متحرک در یک مدل سه بعدی تجسم می شود. آزمایش ها نشان می دهد که روش های پیشنهادی به نتایج خوبی دست می یابند. روش‌های پیشنهادی برای درک سریع و کارآمد فعالیت‌های اجسام متحرک در یک صحنه جغرافیایی برای کاربران مفید است که به کاربران اجازه می‌دهد آنها را شخصاً احساس کنند.

ادامه این مقاله به شرح زیر سازماندهی شده است: بخش ۲ آثار مرتبط را معرفی می کند. بخش ۳ چارچوب تلفیقی از اطلاعات جغرافیایی سه بعدی و اجسام متحرک را در ویدیوهای نظارتی ارائه می کند. بخش ۴ اصول و روش های اتخاذ شده در این مقاله را از چهار جنبه نشان می دهد: مدل تصویربرداری دوربین، تقاطع پرتو با DSM، تشخیص و ردیابی عابر پیاده، و کسب اطلاعات مکانی – زمانی اشیا. بخش ۵ آزمایش را انجام و تجزیه و تحلیل می کند. بخش ۶ مسیر حرکت اجسام متحرک را در مدل سه بعدی ارائه می کند. بخش ۷ مطالعه را خلاصه و نتیجه گیری می کند.

۲٫ کارهای مرتبط

داده های ویدئویی نظارتی دارای مزایایی مانند غنا، شهود و به موقع بودن اطلاعات است. با این حال، چالش های متعددی نیز وجود دارد، مانند حجم عظیم داده ها، کمیاب بودن اطلاعات جغرافیایی، و پراکندگی اطلاعات با ارزش بالا. استخراج اجسام متحرک از فیلم های نظارتی و ژئوفضایی سازی تصاویر ویدئویی ضروری است. در این بخش به معرفی آثار مرتبط در چهار جنبه می پردازیم: کالیبراسیون دوربین، فضای جغرافیایی ویدئو، تشخیص و ردیابی اشیا، و ادغام فیلم های نظارتی و اطلاعات جغرافیایی.

۲٫۱٫ کالیبراسیون دوربین

کالیبراسیون دوربین یک موضوع اساسی در زمینه بینایی کامپیوتر است و در بسیاری از کاربردها مانند نظارت تصویری، بازسازی سه بعدی، ناوبری ربات و … ضروری است و با این کار می توان به پارامترهای درونی و بیرونی دوربین دست یافت. پارامترهای ذاتی شامل فاصله کانونی، نقطه اصلی، ضرایب انحراف و ضرایب اعوجاج است که ویژگی ذاتی دوربین است. ژانگ [ ۱۴ ] یک تکنیک انعطاف‌پذیر برای کالیبره کردن دوربین با مشاهده یک الگوی مسطح نشان‌داده‌شده در چند جهت مختلف پیشنهاد کرد که استفاده از آن آسان است و دقت بالایی دارد. روش هارتلی [ ۱۵] با تجزیه و تحلیل تطابق نقطه بین حداقل سه تصویر گرفته شده از یک نقطه فضایی با جهت های مختلف دوربین انجام شد که بر اساس چرخش خالص دوربین بدون اطلاع از جهت گیری آن بود. Triggs [ ۱۶ ] ابتدا چهارگانه مطلق را به یک میدان خود کالیبراسیون معرفی کرد، روشی که حداقل به سه تصویر گرفته شده توسط یک دوربین متحرک با پارامترهای ذاتی ثابت اما ناشناخته نیاز دارد. کالیبراسیون پارامترهای ذاتی دوربین به خوبی در ادبیات توضیح داده شده است. پارامترهای بیرونی موقعیت و جهت گیری دوربین را در جهان تعیین می کنند. آنها را می توان با دستگاه های بیرونی (GPS و IMU) یا مشکل Perspective-n-Point (PnP) [ ۱۷ ] در بینایی کامپیوتر به دست آورد. برخی از محققان مسئله PnP را مطالعه کرده اند. لپتیت [ ۱۸] یک راه حل غیر تکراری از n تناظر نقطه ۳ بعدی به ۲ بعدی ارائه کرد که برای همه قابل اجرا بود

n \geq 4

و پیکربندی های مسطح و غیر مسطح را به درستی مدیریت کرد. راه‌حل لی [ ۱۹ ] برای مسئله PnP نیز غیر تکراری بود و می‌توانست بهینه را قویاً بازیابی کند. هنگامی که هیچ نقطه مرجع اضافی وجود نداشت، نتایج آن بهتر از الگوریتم تکراری بود.

۲٫۲٫ ژئوفضایی سازی ویدیویی

ژئوفضایی سازی ویدیویی رابطه نگاشت بین نقاط تصویر و نقاط فضایی را مطالعه می کند. دو روش اصلی ژئوفضایی سازی ویدیویی وجود دارد: روش مبتنی بر ماتریس هموگرافی [ ۷ ، ۸ ] و روش مبتنی بر تقاطع بین پرتو تصویربرداری و مدل زمین [ ۲۰ ].]. اولی فرض می کند که زمین در فضا مسطح است، و به طور کلی ارتفاع آن را ۰ نسبت می دهد. ماتریس هموگرافی را می توان با چهار یا چند مختصات تصویری مربوط به مختصات جهان تعیین کرد. اگرچه محاسبه کوچک است، اما برای صحنه های توپوگرافی بزرگ یا پیچیده مناسب نیست. مورد دوم مستلزم ساخت پرتوهای تصویربرداری و جستجوی پیمایش در مدل زمین است. در نتیجه، این روش تحت تأثیر توپوگرافی قرار نمی گیرد. با این وجود، به مقدار زیادی محاسبات و یک مدل زمین با دقت بالا نیاز دارد. در سال های اخیر، روش های دیگر نقشه برداری ظهور کرده است. Milosavljević [ ۲۱ ] یک فرآیند معکوس را با بازتاب دادن اشیاء تعیین شده با موقعیت بر روی تصویر ویدیویی اتخاذ کرد. در سال ۲۰۱۷، میلوساولیویچ [ ۲۲] ارجاع جغرافیایی نظارت را با جفت کردن مختصات تصویر با مکان‌های جغرافیایی سه بعدی آنها تخمین زد، که می‌توان از آن برای ارجاع جغرافیایی دوربین‌های مداربسته ثابت و PTZ استفاده کرد.

۲٫۳٫ تشخیص و ردیابی شی

ردیابی اشیاء یک میدان دید کامپیوتری است که هدف آن حفظ هویت اشیاء است. Tracking-by-Detection یک چارچوب ردیابی پرکاربرد است که در آن اجسام ابتدا شناسایی می شوند و سپس به مسیرها متصل می شوند. تشخیص شی مستلزم حل دو مسئله است: شی کجاست و شی چیست. در سال ۲۰۱۴، Girshick [ ۲۳ ] برای اولین بار R-CNN را پیشنهاد کرد، که می تواند در مدل های تشخیص اشیاء استفاده شود، و شروع به افزایش در تشخیص اشیا مبتنی بر یادگیری عمیق کرد. اگرچه Fast R-CNN [ ۲۴ ] متعهد به کاهش زمان اجرای یک شبکه تشخیص اشیا بود، اما همچنان با تنگنای محاسبات پیشنهادی منطقه مواجه بود. برای حل مشکل، رن [ ۲۵] یک شبکه پیشنهاد منطقه (RPN) را برای تولید پیشنهاد منطقه معرفی کرد که ویژگی های کانولوشنال تصویر کامل را با Fast R-CNN به اشتراک می گذاشت. او [ ۲۶ ] Mask R-CNN را پیشنهاد کرد، که فقط یک سربار کوچک به سریعتر R-CNN اضافه کرد و می‌توانست اشیاء را به طور موثر تشخیص دهد و همزمان یک ماسک تقسیم‌بندی با کیفیت بالا به دست آورد. آشکارسازهای بالا همه مدل‌های دو مرحله‌ای چارچوب‌های تشخیص شی هستند. بر اساس رگرسیون، ردمون [ ۲۷ ] برای اولین بار مدل تشخیص شی فقط یک بار نگاه می کنید (YOLO) را ارائه کرد. از آنجایی که فقط یک شبکه آموزشی دارد، YOLO از نظر سرعت اجرا مزیت زیادی دارد. با توجه به کمبود YOLO در تشخیص اشیاء کوچک، SSD [ ۲۸مدل ] ایده رگرسیون مورد استفاده در YOLO را اتخاذ کرد و به مکانیسم لنگر پیشنهادی در Faster R-CNN اشاره کرد. YOLOv2، YOLOv3، YOLOv4 و SSD مربوط به مدل های تک مرحله ای هستند. ردیابی شی برای تعیین مکان شی و ثبت مسیر و پارامترهای شی مورد نظر استفاده می شود. تطبیق تراکلت ها برای ایجاد یک مسیر جهانی کامل یک مشکل است. Huang [ ۲۹ ] ابتدا الگوریتم تداعی سلسله مراتبی را پیشنهاد کرد، که پاسخ‌های تشخیص را به tracklet‌ها مرتبط می‌کرد، و سپس این مسیرهای بسیار تکه تکه شده در هر سطح از سلسله مراتب بیشتر برای ایجاد مسیر طولانی نهایی مرتبط شدند. او [ ۳۰] الگوریتم فاکتورسازی ماتریس غیرمنفی محدود (RNMF) را برای حل مشکل تطبیق ردیاب با کاهش خطاهای ردیابی در tracklets پیشنهاد کرد. Xu [ ۳۱ ] یک روش شهودی اما آسان برای پیاده سازی به نام گروه ویژگی پیشنهاد کرد که کاهش دقت را به دلیل انسداد کاهش داد. Wang [ ۳۲ ] اجازه داد که تشخیص شی و تعبیه ظاهر در یک مدل مشترک، که اولین سیستم MOT بلادرنگ (تقریباً) بود، با سرعت اجرای ۲۲ تا ۴۰ FPS و دقت ردیابی بالا، آموخته شود. هنگامی که رابطه توپولوژیکی دوربین ها ناشناخته است، مشکل ردیابی چند دوربین را می توان در یک مشکل شناسایی مجدد (شناسه مجدد) شخص انتزاع کرد. ریستانی [ ۳۳] از تلفات سه گانه وزنی و یک تکنیک استخراج هویت سخت برای به دست آوردن ویژگی های ظاهری استفاده کرد که در تشخیص شی و شناسایی مجدد عملکرد خوبی داشت. ژانگ [ ۳۴ ] از R-CNN سریعتر برای شناسایی اشیا و مدل شناسایی مجدد شخص برای استخراج ویژگی های ظاهری ابتدا استفاده کرد و سپس با خوشه بندی سلسله مراتبی مسیرها را ادغام کرد. تاگور [ ۳۵ ] یک رویکرد شناسایی مجدد سلسله مراتبی کارآمد، ابتدا از طریق هیستوگرام رنگی و سپس از طریق مقایسه عمیق مبتنی بر ویژگی، که بر روی شش مجموعه داده ارزیابی شد، پیشنهاد کرد.

۲٫۴٫ ادغام فیلم های نظارتی و اطلاعات جغرافیایی

Katkere [ ۳۶ ] GIS و ویدئو را برای اولین بار با استفاده از جریان های داده های ویدئویی متعدد برای ایجاد محیط های مجازی فراگیر یکپارچه کرد. Takehara [ ۳۷ ] دوربین‌های ثابت و جریان‌های داده ضبط‌شده در زمان واقعی را یکپارچه کرد، که می‌توانست نماهای سه بعدی بسازد و حرکت افراد را در فضا به روشی قابل درک نشان دهد. Zhang [ ۳۸ ] فرض کرد که چرخش دوربین صفر است و سپس ماتریس تبدیل را برای تحقق یکپارچگی GIS دو بعدی و نظارت تصویری محاسبه کرد. یانگ [ ۳۹ ] نظارت چند نما را اتخاذ کرد و نماهای سه بعدی قابل هدایت از اشیاء ردیابی شده را بر روی یک بازنمایی سایت سه بعدی بازسازی شده ارائه کرد، که در هنگام وقوع رویداد، دیدگاه‌هایی را در اختیار کاربران قرار داد. زی [ ۸] ادغام GIS و اجسام متحرک در ویدئوهای نظارتی را مورد بحث قرار داد و مدل یکپارچه‌سازی را پیشنهاد کرد که در آن داده‌های ویدئویی توسط یک دوربین واحد جمع‌آوری می‌شد. در سال ۲۰۱۹، Xie [ ۷ ] در مورد ادغام اجسام متحرک ویدئویی چند دوربینی (MCVO) و GIS بحث کرد. سناریوهای کاربردی هر دو مقاله محدود به موقعیتی است که در آن ناحیه ویدیو صاف است.

۳٫ چارچوب اطلاعات جغرافیایی سه بعدی و اجسام متحرک

اطلاعات ویدیویی را می توان توسط دوربین ها از مکان های جغرافیایی مختلف جمع آوری کرد که دنباله ای از تصاویر (فریم ها) است. اگر اپراتورهای امنیتی با منطقه مانیتورینگ آشنا نباشند، نمی توانند محل اشیاء را از این تصاویر بدست آورند. ادغام یک ویدیو و GIS می تواند اشیایی را که آنها به آنها علاقه مند هستند یکسان کند. با انجام این کار، اطلاعات مکانی – زمانی اشیاء متحرک را می توان در یک مدل جغرافیایی سه بعدی نمایش داد که می تواند به پیاده سازی اندازه گیری اشیاء و افزایش کیفیت کمک کند. نمایش چند بعدی بصری GIS چارچوب ترکیبی اطلاعات جغرافیایی سه بعدی و اجسام متحرک در ویدئوی نظارتی در شکل ۱ نشان داده شده است .

در چارچوب خود، ادغام اطلاعات جغرافیایی سه بعدی و اجسام متحرک در ویدیوی نظارتی را به چندین بخش تقسیم می‌کنیم:

کالیبراسیون دوربین هدف کالیبراسیون دوربین به دست آوردن پارامترهای درونی و بیرونی است که می تواند مدل دوربین را تعیین کند.
استخراج اجسام متحرک آشکارسازهای اشیاء و ردیاب‌ها می‌توانند اطلاعات اجسام متحرک را در یک ویدیو استخراج کنند که در مورد موقعیت‌های مکانی-زمانی در یک تصویر است. این موقعیت ها خیلی دقیق نیستند و حاوی خطا هستند. آنها نیاز به اصلاح اعوجاج دارند.
مدل نقشه برداری در فرآیند تصویربرداری دوربین، اطلاعات عمق از بین می رود. برای بازیابی موقعیت جسم در فضا، به اطلاعات زمین که توسط یک مدل جغرافیایی سه بعدی به دست آمده است نیاز داریم. با توجه به یک دوربین مدرج و یک پیکسل تصویر، یک پرتو تصویربرداری $(X_{0}, Y_{0}, Z_{0}) + k (U, V, W)$ ساخته شده است. پرتو تصویربرداری زمین را در نقطه ای که جسم در آن قرار دارد قطع می کند.
اطلاعات مکانی – زمانی در فضای سه بعدی علاوه بر اطلاعات موقعیت سه بعدی، عرض و ارتفاع جسم را نیز می توان با محاسبه هندسی به دست آورد.
تجسم. اشیاء متحرک را در یک صحنه جغرافیایی سه بعدی ارائه دهید.

به طور خلاصه، کالیبراسیون دوربین و استخراج اجسام متحرک اساس همجوشی است. مدل نقشه برداری پلی از فضای تصویر به دنیای واقعی است. اطلاعات مکانی – زمانی در فضای سه بعدی داده های حیاتی همجوشی هستند. و تجسم نتیجه ادغام است. بدیهی است که ادغام اطلاعات جغرافیایی سه بعدی و اجسام متحرک در ویدئوهای نظارتی با هدف ارائه یک چارچوب یکپارچه و ایجاد مزایای این دو مکمل است.

۴٫ اصول و روشها

بخش ۳ چارچوب ادغام را نشان داده و یک توصیف کلی ارائه کرده است. این چارچوب به الگوریتم‌های خاصی برای مدل دوربین، استخراج شی یا مدل نگاشت متکی نیست. در بخش ۴ ، اصول و روش‌های این موضوعات اصلی را در این مقاله توضیح خواهیم داد.

۴٫۱٫ مدل تصویربرداری دوربین

دوربین نقشه برداری بین دنیای سه بعدی (فضای شی) و یک تصویر دو بعدی است. به عبارت دیگر، می‌توانیم نقاط موجود در فضا را با مختصات سه‌بعدی به نقاطی در صفحه تصویر زیر مدل دوربین نگاشت کنیم. تخصصی ترین و ساده ترین مدل دوربین، دوربین پین هول است. مدل تصویربرداری در معادله (۱) فهرست شده است:

λ ⎡⎣⎢ u v 1 ⎤⎦⎥ = ⎡⎣⎢ f x 00 s f y 0 u 0 v 0 1 ⎤⎦⎥ [R 0 1 \times ۳ t I] ⎡⎣⎢⎢⎢⎢ X W Y W Z W 1 ⎤⎦⎥⎥⎥⎥ = K [R | t] ⎡⎣⎢⎢⎢⎢ X W Y W Z W 1 ⎤⎦⎥⎥⎥⎥ = C ⎡⎣⎢⎢⎢⎢ X W Y W Z W 1 ⎤⎦⎥⎥⎥⎥,

(۱)

جایی که $λ$ در رابطه (۱) ضریب مقیاس است. ${[\begin{matrix} u & v \end{matrix}]}^{T}$ یک نقطه در صفحه تصویر است. ${[\begin{matrix} u_{0} & v_{0} \end{matrix}]}^{T}$ مختصات نقطه اصلی O هستند. $f_{x}$ و $f_{y}$ نشان دهنده فاصله کانونی دوربین بر حسب ابعاد پیکسل در $u$ و $v$ جهت، به ترتیب؛ پارامتر $s$ پارامتر چولگی است. و ${[\begin{matrix} X_{W} & Y_{W} & Z_{W} \end{matrix}]}^{T}$ نقطه ای در فضا است پارامترهای موجود در K را پارامترهای ذاتی می نامند. پارامترهای موجود در $[R| t]$ که جهت و موقعیت دوربین را به یک سیستم مختصات جهانی مرتبط می کند، پارامترهای بیرونی نامیده می شوند. $K$ و $[R| t]$ را می توان با روش های کالیبراسیون به دست آورد.

مدل تصویربرداری دوربین ارائه شده ایده آل است و اعوجاج لنز را در نظر نمی گیرد. بنابراین، از مدل‌های اعوجاج شعاعی و اعوجاج مماسی برای نمایش دقیق یک دوربین واقعی استفاده می‌شود:

(۱) مدل اعوجاج شعاعی:

x distorted = x (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) y distorted = y (1 + k 1 r 2 + k 2 r 4 + k 3 r 6)

(۲)

جایی که $k_{1}$ ، $k_{2}$ و $k_{3}$ پارامترهای مدل اعوجاج شعاعی هستند. $r^{2} = x^{2} + y^{2}$ . $(x_{distorted}, y_{distorted})$ و $(x, y)$ مختصات تصویر نرمال شده هستند.

(۲) مدل اعوجاج مماسی:

x distorted = x + 2 p 1 x y + p 2 (r 2 + 2 x 2) y distorted = y + p 1 (r 2 + 2 y 2) + 2 p 2 x y

(۳)

جایی که $p_{1}$ و $p_{2}$ پارامترهای مدل اعوجاج مماسی هستند. با ترکیب معادلات (۲) و (۳) می توان نتیجه گرفت که:

x distorted = x (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) + 2 p 1 x y + p 2 (r 2 + 2 x 2) y distorted = y (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) + p 1 (r 2 + 2 y 2) + 2 p 2 x y

(۴)

u = x f x + u 0 v = y f y + v 0

(۵)

بنابراین، برای هر نقطه

P

، موقعیت صحیح این نقطه است

(u, v)

در صفحه پیکسل را می توان از طریق پنج ضریب اعوجاج یافت

(k_{1}, k_{2}, k_{3}, p_{1}, p_{2})

۴٫۲٫ تقاطع پرتو با DSM

با توجه به رابطه (۱)، هنگامی که یک دوربین کالیبره می شود، C تعیین می شود. بنابراین، ما می توانیم نقاط را ترسیم کنیم

(X_{W}, Y_{W}, Z_{W})

در فضا به نقاط

(u, v)

در صفحه تصویر زیر مدل دوربین. برعکس، نمی‌توانیم مختصات سه‌بعدی را از پیکسل‌های تصویر محاسبه کنیم، زیرا اطلاعات عمق در طول فرآیند تصویربرداری از بین می‌رود. یعنی نمی توانیم ۳ بعدی را از ۲ بعدی بازیابی کنیم. بنابراین استفاده از اطلاعات توپوگرافی ضروری است. DSM یک مدل دیجیتال توپوگرافی است که نقش برجسته و وضعیت را در سطح توصیف می کند. از مدل دیجیتالی زمین تشکیل شده و سطح زمین، از جمله تمام اجسام روی آن را نشان می دهد.

مدل راه حل محلی سازی مبتنی بر DSM در شکل ۲ نشان داده شده است ، که در آن O نقطه مرکزی دوربین، A نقطه شیء است، و منحنی L نشان دهنده زمینی است که از A عبور می کند. همه نقاط روی پرتو تصویربرداری OA در یک تصویر گرفته می شوند. نقطه روی صفحه تصویر بنابراین، نقاط روی پرتو تصویربرداری را می توان جستجو کرد و با مدل DSM مطابقت داد. مراحل محاسبه خاص به شرح زیر است:

(۱)

ساخت یک پرتو تصویربرداری، $(X_{0}, Y_{0}, Z_{0}) + k (U, V, W)$ ، جایی که $(X_{0}, Y_{0}, Z_{0})$ مکان دوربین در فضا است، $k \geq 0$ فاصله دلخواه است و $(U, V, W)$ یک بردار واحد است که جهت پرتو تصویربرداری از دوربین را نشان می دهد. همانطور که در شکل ۲ الف نشان داده شده است، فرض کنید که محل نقطه A در تصویر است $(u_{a}, v_{a})$ ، و مختصات پیکسل هر نقطه B در پرتو تصویربرداری OA نیز هستند $(u_{a}, v_{a})$ . جایگزین $λ$ (یک ثابت) به معادله (۱) برای به دست آوردن $B (X_{B}, Y_{B}, Z_{B})$ . این می دهد:

⎡⎣⎢ U V دبلیو ⎤⎦⎥ = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢ ایکس ب - ایکس ۰ ( ایکس ب - ایکس ۰ ) ۲ + ( Y ب - Y 0 ) 2 + ( ز ب - ز ۰ ) ۲ \sqrt Y ب - Y 0 ( ایکس ب - ایکس ۰ ) ۲ + ( Y ب - Y 0 ) 2 + ( ز ب - ز ۰ ) ۲ \sqrt ز ب - ز ۰ ( ایکس ب - ایکس ۰ ) ۲ + ( Y ب - Y 0 ) 2 + ( ز ب - ز ۰ ) ۲ \sqrt ⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥ ،

(۶)

(۲)

جستجو برای نقاط شی از نقطه دوربین شروع کنید و در جهت پرتو تصویربرداری OA جستجو کنید. مرحله جستجو فاصله شبکه است $Δ d$ از DSM. مختصات از $N$ نقطه جستجو عبارتند از:

⎡⎣⎢ ایکس ن Y ن ز ن ⎤⎦⎥ = ⎡⎣⎢ ایکس ۰ Y 0 ز ۰ ⎤⎦⎥ + ن Δ د ⎡⎣⎢ U V دبلیو ⎤⎦⎥ .

(۷)

جایگزین $(X_{N}, Y_{N})$ به DSM برای جستجو و مطابقت. ثبت ارتفاع در $(X_{N}, Y_{N})$ در DSM به عنوان $Elev (X_{N}, Y_{N})$ . ارتفاعات چهار نقطه گوشه شبکه که در آن $(X_{N}, Y_{N})$ واقع شده است $Z 1$ ، $Z 2$ ، $Z 3$ و $Z 4$ ، به ترتیب. سپس،

الف (ایکس ن ، Y ن) = ۱ ۴ (ز ۱ + ز ۲ + ز ۳ + ز ۴) .

(۸)

چه زمانی $Elev (X_{N}, Y_{N}) \geq Z_{N}$ برای اولین بار ظاهر می شود، نشان می دهد که شی A عبور کرده است:

①: اگر $Elev (X_{N}, Y_{N}) = Z_{N}$ ، $(X_{N}, Y_{N}, Z_{N})$ مختصات جهان جسم A است.
②: اگر $Elev (X_{N}, Y_{N}) > Z_{N}$ ، به این معنی است که نقطه شی بین نقطه جستجو قرار دارد $N$ و $N - 1$ . $Elev (X_{N}, Y_{N})$ مخفف شده است $E_{N}$ . با درون یابی، تخمین مکان دقیق تری را می توان به دست آورد. فرآیند درونیابی در شکل ۲ ب نشان داده شده است. با توجه به رابطه نسبت مثلث، وجود دارد:

$ز ن - ۱ آ ¯¯¯¯¯¯¯¯¯¯ ز ن - ۱ E ن - ۱ ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ = ز ن - ۱ ز ن ¯¯¯¯¯¯¯¯¯¯¯¯ ز ن E ن ¯¯¯¯¯¯¯¯¯ + ز ن - ۱ E ن - ۱ ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ .$

(۹)

مختصات جهان جسم A عبارتند از:

⎡⎣⎢ ایکس آ Y آ ز آ ⎤⎦⎥ = ⎡⎣⎢ ایکس ن - ۱ Y ن - ۱ ز ن - ۱ ⎤⎦⎥ + ز ن - ۱ آ ¯¯¯¯¯¯¯¯¯¯ ⎡⎣⎢ U V دبلیو ⎤⎦⎥ .

(۱۰)

۴٫۳٫ تشخیص و ردیابی عابر پیاده

برای فیلم های نظارتی در صحنه های ثابت، مردم بدون توجه به اطلاعات پس زمینه به اشیاء متحرک توجه بیشتری می کنند. بنابراین، اجسام متحرک نیز در تجزیه و تحلیل هوشمند ویدئویی تاکید دارند.

You Only Look Once (YOLO) خانواده ای از مدل های معروف به دلیل عملکرد بسیار بالا و در عین حال فوق العاده کوچک است. YOLOv5 سبک وزن است و در تشخیص اجسام کوچک با در نظر گرفتن دقت و سرعت مزایای خوبی دارد. علاوه بر این، فرآیند انتخاب جعبه لنگر در YOLOv5 یکپارچه شده است. بنابراین، بدون در نظر گرفتن هیچ یک از مجموعه داده ها به عنوان ورودی، به طور خودکار “یاد می گیرد” که بهترین جعبه های لنگر را برای آن مجموعه داده ارائه کند و از آنها در طول آموزش استفاده کند. شکل ۳معماری شبکه YOLOv5 را نشان می دهد. از سه بلوک اصلی معماری تشکیل شده است: (۱) ستون فقرات، (۲) گردن، و (iii) سر. ساختار فوکوس در ستون فقرات اضافه شده و دو ساختار CSP طراحی شده است. ساختار CSP1-x در DarkNet گنجانده شده است و CSPDarknet را ایجاد می کند که ستون فقرات Yolov5 است. CSPDarknet ویژگی هایی را از تصاویر متشکل از شبکه های CSP1-x استخراج می کند. CSP مشکلات گرادیان تکراری را در ستون فقرات در مقیاس بزرگ حل می کند که منجر به پارامترهای کمتر و FLOPS کمتر (عملیات ممیز شناور در ثانیه) می شود. به نوبه خود، سرعت و دقت استنتاج را تضمین می کند و اندازه مدل را کاهش می دهد. قسمت گردن از PANet برای ایجاد یک شبکه هرم ویژگی برای انجام تجمیع ویژگی ها و ارسال آن به Head برای پیش بینی استفاده می کند. ساختار CSP2-X مورد استفاده در گردن، قابلیت ترکیب ویژگی های شبکه را تقویت می کند. سر Yolov5 سه اندازه مختلف از نقشه های ویژگی را برای پیش بینی چند مقیاسی تولید می کند. نتایج تشخیص شامل کلاس، امتیاز، مکان و اندازه است.

روش SORT عمیق [ ۴۰ ] از فیلتر کالمن بازگشتی و ارتباط فریم به فریم داده برای تحقق ردیابی شی استفاده می کند. فاصله Mahalanobis برای ترکیب اطلاعات حرکت و کوچکترین فاصله کسینوس برای مرتبط کردن اطلاعات ظاهری اجسام استفاده می شود. با استفاده از یک جمع وزنی مطابق با معادله (۱۱)، دو معیار متریک بالا برای تأیید متریک نهایی و خروجی اطلاعات ردیابی شی از طریق الگوریتم مجارستانی برای دستیابی به تطابق ترکیب می شوند:

ج من ، ج = λ د (۱) (i, j) + (۱ - λ) د (۲) (من ، ج) ،

(۱۱)

جایی که $d^{(1)} (i, j)$ فاصله ماهالانوبیس (مربع) است، $d^{(2)} (i, j)$ فاصله کسینوس و $λ$ یک هایپرپارامتر است.

ما YOLOv5 را برای فیلتر کردن هر تشخیصی که یک شخص نیست استفاده می کنیم و سپس از یک الگوریتم SORT عمیق برای ردیابی افرادی که توسط YOLOv5 شناسایی می شوند استفاده می کنیم. این به این دلیل است که متریک ارتباط عمیق بر روی یک مجموعه داده فقط برای شخص آموزش داده شده است. نتایج خروجی شامل (شناسه فریم،

u_{l}

v_{u}

u_{r}

v_{d}

) ( شکل ۴ ). (

u_{l}

v_{u}

u_{r}

v_{d}

) اندازه و موقعیت جعبه مرزی را توصیف کنید.

از آنجایی که این مقاله با تقاطع پرتوهای تصویربرداری و DSM مکان اشیاء را تعیین می کند، انتخاب نقطه مرکزی موقعیت ایستاده روی هر دو پا منطقی است. عابران پیاده بیشتر اوقات در حال حرکت هستند. بسیاری از قاب های اشیا برای اندازه گیری موقعیت نقطه مرکزی هر دو پا استفاده می شود. منطقی است که بر اساس معادله زیر محاسبه شود:

u f = u l + u r 2 v f = v d + 10 ( v d - v u ) 11

(۱۲)

نتایج ردیابی شی را مطابق با معادله (۱۲) بدست آورید و آنها را مطابق مدل تصحیح اعوجاج دوربین تصحیح کنید. سپس، نتایج تصحیح اعوجاج به مدل نقشه برداری منتقل می شود تا مسیرهای جغرافیایی اشیاء به دست آید.

۴٫۴٫ اکتساب اطلاعات مکانی – زمانی اشیاء

با فرض اینکه عابر پیاده بر زمین عمود باشد و مختصات جهانی نقطه تماس مرکز پاها باشد. $(X_{a}, Y_{a}, Z_{a})$ ، $(X_{a}, Y_{a})$ بنابراین محل سر عابر پیاده است. موقعیت سر نقطه مرکزی لبه بالایی جعبه مرزی است که به صورت حذف شده است. $(u_{t}, v_{t})$ . با جایگزینی مدل تصویربرداری دوربین (معادله (۱))، ارتفاع سر به صورت حل می شود $Z_{t}$ . بنابراین ارتفاع عابر پیاده برابر است با:

H = Z t - Z a .

(۱۳)

عرض بدنه جسم با عرض جعبه مرزی محاسبه می شود. دو نقطه ای که خط افقی حاوی نقطه مرکزی هر دو پا با کادر محدود کننده جسم ملاقات می کند، هستند $(u_{l}, v_{f})$ و $(u_{r}, v_{f})$ ، به ترتیب. $(u_{l}, v_{f})$ ، $(u_{r}, v_{f})$ و ارتفاع $Z_{a}$ در مدل تصویربرداری دوربین جایگزین می شوند، که مختصات جهان مربوطه را می توان به عنوان به دست آورد $(X_{l}, Y_{l}, Z_{a})$ و $(X_{r}, Y_{r}, Z_{a})$ . عرض جسم برابر است با:

W = (X l - X l) 2 + (Y l - Y l) 2 ------------------\sqrt,

(۱۴)

با استفاده از شناسه شی به‌عنوان شناسه منحصربه‌فرد، اطلاعات مکانی-زمانی اشیا، مانند مختصات جغرافیایی سه بعدی، ارتفاع شی، عرض، و شناسه قاب ذخیره می‌شوند.

۵٫ آزمایش ها و نتایج

۵٫۱٫ محیط تجربی

ما ابتدا یک چارچوب ترکیبی کلی از اطلاعات جغرافیایی سه بعدی و اجسام متحرک را در ویدئوی نظارتی پیشنهاد کردیم. تمرکز ما این است که اطلاعات مکانی-زمانی سه بعدی اجسام متحرک را بدست آوریم و مسیر حرکت آنها را در مدل سه بعدی نمایش دهیم. تا آنجا که می دانیم، هیچ مجموعه داده ای در دسترس عموم برای این موضوع تحقیقاتی وجود ندارد. ما نمی توانیم نتایج خود را با آخرین هنر مقایسه کنیم. برای تأیید آزمایش خود، گوشه ای از یک پارک اداری را انتخاب کردیم که به مناطق چپ و راست تقسیم شده است که با پله ها محدود شده است. اگرچه هر دو ناحیه راست و چپ نسبتاً مسطح هستند، اما این دو ناحیه در یک صفحه نیستند. اختلاف ارتفاع بین دو منطقه بین ۵۰ تا ۶۰ سانتی متر است. منطقه مناسب برای آزمایش انتخاب شد. شکاف های کاشی بسیار واضح در ناحیه مناسب وجود دارد، که برای اندازه گیری مقدار واقعی مسیرهای جسم متحرک و مقایسه مسیرهای موقعیت یابی جسم با مسیرهای واقعی مناسب هستند. در عین حال، برای خوانندگان راحت تر است که نتایج تجسم کامل را ببینند و به طور مستقیم در مورد اثرات موقعیت یابی قضاوت کنند.

در این آزمایش، از یک دوربین گنبدی نور سفید هوشمند با سرعت بالا (Dahua) با هسته شبکه ۲۰۰ W مدل DH-SD-6C3230U-HN-D2 استفاده شد. وضوح تصویر آن ۱۹۲۰ × ۱۰۸۰ و نرخ فریم آن ۲۵ فریم بر ثانیه بود. یک ویدیوی نظارتی ۳۶ ثانیه با مجموع ۹۰۰ فریم گرفته شد. مدل سه بعدی با فتوگرامتری به دست آمد. سیستم مختصات مورد استفاده، سیستم مختصات ژئودتیک چین ۲۰۰۰ و سیستم ارتفاعی، ارتفاع ژئودتیک GPS بود که یک چارچوب مرجع ارائه می کرد. مختصات جغرافیایی منطقه مورد مطالعه بزرگ و نمودارها مختصر و خوانا نبودند. در عین حال، با توجه به محرمانه بودن نتایج بررسی، داده های مورد استفاده در این مقاله ترجمه و چرخش شدند.

۵٫۲٫ پارامترهای ذاتی

همانطور که در شکل ۵ نشان داده شده است ، از هواپیمای مدل آلومینا با آرایه ۹×۱۲، طول ضلع مربع ۴۰ میلی متر و دقت ۰٫۰۱ میلی متر استفاده شده است. با حرکت هواپیما چند عکس از هواپیمای مدل در جهت های مختلف گرفته شد. ما از این تصاویر برای کالیبره کردن این دوربین با روش کالیبراسیون Zhang Zhengyou استفاده کردیم [ ۱۴ ]. برای به دست آوردن دقت کالیبراسیون بالاتر، تصاویر با میانگین خطاهای بازپرداخت بزرگ حذف شدند. در نهایت ۱۵ تصویر برای کالیبراسیون انتخاب شدند. نتایج کالیبراسیون به شرح زیر است:

ماتریس ذاتی توسط:

K = [\begin{matrix} 1581 . 5766 & - 0.5230 & 1012 . 4398 \\ 0 & 1581 . 1851 & 559 . 7023 \\ 0 & 0 & 1 \end{matrix}]

اعوجاج شعاعی است

[\begin{matrix} 0.0314 & 0.0358 & 0.2725 \end{matrix}]

. اعوجاج مماسی است

[\begin{matrix} 0.0004 & - 0.0002 \end{matrix}]

و خطای بازپرداخت ۰٫۱۳ پیکسل است.

۵٫۳٫ پارامترهای بیرونی

پنج نقطه نقطه عطف به طور مساوی در محدوده دید دوربین توزیع شدند و یک ایستگاه کل برای اندازه گیری مختصات سه بعدی پنج نقطه عطف استفاده شد. به دلیل اعوجاج دوربین، برخی از خطاها را به پارامترهای بیرونی وارد می کند. در نتیجه، ابتدا تصحیح اعوجاج کامل شد و سپس مختصات پیکسل پنج نقطه مشخص جمع آوری شد که در شکل ۶ نشان داده شده است. از طریق پنج جفت نقطه، روش EPNP [ ۱۸ ] برای محاسبه ماتریس پارامترهای بیرونی دوربین ثابت شد. جفت نقطه مربوطه در جدول ۱ نشان داده شده است.

مختصات دوربین مدرج در سیستم مختصات جهانی (۳۹٫۳۱۴، ۸۴٫۲۶۷، ۹۲٫۵۱۲) می باشد. ماتریس چرخش و ماتریس ترجمه به شرح زیر است:

R = ⎡⎣⎢ - ۰ . ۸۵۱۸۰۸۷۵۲۹۴۵۴۶۱ ۰ . ۱۴۶۰۴۲۴۴۰۲۹۹۱۷۳ - ۰ . ۵۰۳۰۸۳۹۴۳۳۳۰۴۹۵ - ۰ . ۵۲۳۷۵۱۳۵۰۴۱۹۰۲۱ - ۰ . ۲۱۸۵۱۸۱۵۸۹۳۰۸۶۱ ۰ . ۸۲۳۳۶۷۶۸۰۴۱۴۸۴۳ ۰ . ۰۱۰۳۱۳۶۴۸۲۲۶۹۹۶ ۰ . ۹۶۴۸۴۲۶۹۱۷۶۳۲۳۷ ۰ . ۲۶۲۶۲۵۶۰۵۷۸۰۰۱۶ ⎤⎦⎥

t = ⎡⎣⎢ ۷۶ . ۶۶۷۶۹۲۹۰۴۱۶۰۳ - ۷۶ . ۵۸۷۲۲۱۵۹۶۱۶۰۹ - ۷۳ . ۸۹۹۵۵۲۸۸۵۳۱۴۸ ⎤⎦⎥

تا حالا،

K

R

t

، و

(k_{1}, k_{2}, k_{3}, p_{1}, p_{2})

به دست آمده و مدل تصویربرداری دوربین مشخص شده است.

۵٫۴٫ ردیابی اشیا

روش پیشنهادی برای شناسایی و ردیابی عابران پیاده در فیلم نظارتی اتخاذ شد و برخی از فریم‌های اصلی و فریم‌های ردیابی انتخاب شدند ( شکل ۷ ). همانطور که از شکل ۷ مشاهده می شود ، هیچ خطای تطبیقی برای پنج جسم متحرک وجود ندارد و نتایج ردیابی خوب است.

۵٫۵٫ تخمین مکان شی

هر مکان با پرتاب یک پرتو تصویربرداری سه بعدی از مرکز دوربین و نقطه مرکزی هر دو پا در صفحه تصویر به داخل صحنه و تعیین محل تلاقی آن با زمین به دست می آید. DSM واقعی ترین نمایش توپوگرافی را نشان می دهد که از طریق مدل سه بعدی به دست می آید. شبکه DSM 5 سانتی متر × ۵ سانتی متر با دقت ۶٫۵ سانتی متر است (فقط زمین). از آنجایی که فاصله شبکه DSM کمتر از دقت ارتفاع آن است، مکان‌های اشیا با استفاده از

Elev (X_{N}, Y_{N}) \geq Z_{N}

به عنوان شرط تصمیم، بدون پردازش درون یابی در این آزمایش.

شکل ۸ مسیر مسطح اجسام متحرک را در سیستم مختصات جهان نشان می دهد. اگرچه برخی از لرزش ها وجود دارد، اما آنها حرکت واقعی اجسام متحرک را به عنوان یک کل منعکس می کنند. شکل ۹ مسیرهای ارتفاعی را نشان می دهد. در شکل ۹a ارتفاع اجسام اول، سوم، چهارم و پنجم ملایم است و نوسان شدیدی ندارد. با این حال، ارتفاع جسم دوم تکان می‌خورد. جسم دوم به تخت گل نزدیک می شود. تحت تأثیر خطاها، نقاط مرکزی پاها در برخی فریم ها به نقاط روی تخت گل نگاشت می شوند، نه روی زمین، که منطقی نیست. برای انعکاس دقیق اطلاعات ارتفاع اجسام متحرک، فیلتر میانه اتخاذ شده است. ارتفاعات با فیلتر میانه با اندازه پنجره ۲۵ فیلتر می شوند. میخ های شکل ۹ ب را می توان با فیلتر میانه فیلتر کرد. سپس، مسیرها توسط یک چند جمله ای مکعبی در شکل ۹ برازش می شوندج نتایج رضایت بخشی در اعمال چند جمله ای مکعبی برای برازش مسیرهای ارتفاعی بر اساس اصل محاسبه روش حداقل مربعات به دست آمده است. مسیرهای سه بعدی اجسام متحرک در یک نمودار ( شکل ۱۰ ) ارائه شده است که در آن ارتفاعات ابتدا با فیلتر میانه فیلتر شده و سپس توسط یک چند جمله ای مکعبی برازش می شوند.

۵٫۶٫ تخمین عرض و ارتفاع جسم

در بخش ۵٫۵ ، ما مکان های اشیا را در هر فریم دنباله می شناسیم. در همین حال، ما همچنین می خواهیم عرض و ارتفاع شی را بدانیم. معادلات (۱۳) و (۱۴) روشی را برای محاسبه عرض و ارتفاع جسم ارائه می دهند. به دلیل تأثیر وضعیت های راه رفتن، نتایج محاسبه عرض و ارتفاع جسم ثابت نخواهد شد. بنابراین، فیلتر میانه با اندازه پنجره ۲۵ نیز در اینجا برای فیلتر کردن عرض و ارتفاع شی استفاده می شود.

شکل ۱۱ و شکل ۱۲ به ترتیب عرض و ارتفاع اجسام متحرک را نشان می دهند. پس از حذف ناهنجاری ها با فیلتر میانه، میانگین عرض و ارتفاع در رابطه (۱۵) محاسبه می شود:

x ¯ = ۱ n \sum i = 1 n x i,

(۱۵)

جایی که $x_{i}$ عرض/ارتفاع شی پس از فیلتر در هر فریم است و $n$ تعداد فریم است. میانگین عرض و ارتفاع اجسام متحرک در جدول ۲ نشان داده شده است.

۵٫۷٫ اطلاعات مکانی – زمانی اجسام متحرک

ما اطلاعات مکانی-زمانی اشیاء متحرک، از جمله مختصات جهان سه بعدی، عرض و ارتفاع را به دست آورده ایم. جدول ۳ بخشی از اطلاعات مکانی- زمانی شی چهارم را نشان می دهد که مکان، عرض و ارتفاع جسم چهارم را در صحنه جغرافیایی از قاب ۳۶۸ تا فریم ۳۸۴ نشان می دهد.

۵٫۸٫ آمار زمان آزمایشی

ما آزمایش‌هایی را به ترتیب در محیط‌های سخت‌افزاری CPU و GPU انجام دادیم. مدت زمان فیلم نظارتی مورد استفاده در آزمایش ها ۳۶ ثانیه با ۲۵ فریم در ثانیه و در مجموع ۹۰۰ فریم است. نتایج تجربی در جدول ۴ نشان داده شده است. در طراحی آزمایشی فعلی، عملیاتی مانند استخراج فریم کلیدی را روی ویدیو انجام ندادیم و این قسمت در ادامه بررسی خواهد شد.

۵٫۹٫ تجزیه و تحلیل نتایج تجربی

مسیرهای پیاده روی عابران پیاده توسط یک ایستگاه کل اندازه گیری شد تا صحت نتایج تجربی را تأیید کند، که به عنوان مقدار واقعی مسیرها استفاده شد. مقایسه و تجزیه و تحلیل مسیرهای اندازه گیری شده و نقشه برداری شده در شکل ۱۳ نشان داده شده است.

فاصله عمودی بین نقطه نقشه برداری و مسیر اندازه گیری شده به عنوان استاندارد برای ارزیابی خطای موقعیت مسطح در نظر گرفته می شود. حداکثر خطا (ME) و ریشه میانگین مربعات خطا (RMSE) موقعیت شی پویا عبارتند از:

ME = Max (d 1, d 2 \dots, d n),

(۱۶)

RMSE = \sum i = 1 n d 2 i n ------⎷,

(۱۷)

جایی که $d_{i}$ فاصله عمودی بین $i$ نقطه نقشه برداری و مسیر اندازه گیری شده، و $n$ تعداد نقاط نقشه برداری است. ME و RMSE موقعیت مسطح و ارتفاع به ترتیب در جدول ۵ و جدول ۶ نشان داده شده است.

همانطور که از شکل ۱۳ مشاهده می شود ، موقعیت های مسطح پنج جسم همگی ارتعاش دارند. به این دلیل است که یک فرد بدن سفت و سختی نیست. در فرآیند حرکت، جعبه مرزی به دلیل تأثیر چرخش بازو، گام برداشتن و چرخش پا و غیره نوسان خواهد داشت. به ویژه، جسم چهارم به طور مکرر در نزدیکی موقعیت شروع به دور خود می چرخد و باعث لرزش شدید در نزدیکی قسمت شروع می شود. در همین حال، اشیاء دوم و چهارم نیز نوسانات زیادی را در سمت راست شکل ۱۳ نشان می دهند. دلیل آن این است که اشیای دوم و چهارم در حال دور شدن از میدان دید دوربین و مسدود شدن توسط تخت گل نزدیک است. جعبه مرزی دقیق نیست. ME جسم دوم و چهارم ۴۰ سانتی متر و ۴۸ سانتی متر است ( جدول ۵) به ترتیب بزرگتر از اجسام اول، سوم و پنجم است. در موقعیت های دیگر، ME جسم دوم و چهارم به ترتیب ۲۵ سانتی متر و ۲۸ سانتی متر است. RMSE پنج جسم نسبتا کوچک است و کمتر از ۱۰ سانتی متر است. به طور کلی، در صورتی که جعبه مرزی بتواند کل جسم را به طور کامل ترسیم کند، رویکرد پیشنهادی در این مقاله می تواند موقعیت یابی اجسام متحرک را با دقت بالا مشخص کند و ME موقعیت مسطح را می توان در ۳۱ سانتی متر کنترل کرد و RMSE در ۱۰ سانتی متر

همانطور که در شکل ۱۴ نشان داده شده است ، با افزایش تعداد فریم ها، تمام خطاهای ارتفاعی روند کاهشی را نشان می دهند که عمدتاً تحت تأثیر دقت DSM است. منطقه مانیتورینگ بین دو ساختمان بلند قرار دارد و اشیا از وسط دو ساختمان بلند به سمت محوطه باز بیرون در حال حرکت هستند. تحت تأثیر سیگنال‌های ماهواره‌ای، دقت جمع‌آوری داده‌های مدل سه‌بعدی در ناحیه میانی ضعیف و در ناحیه باز بیرونی بهتر است و در نتیجه دقت DSM ناهموار است. داده های شکل ۱۴ برای به دست آوردن ME و RMSE هر شیء مورد تجزیه و تحلیل آماری قرار گرفته اند ( جدول ۶ ). از جدول ۶ قابل مشاهده استکه ME پنج جسم در ارتفاع همگی در ۱۰ سانتی متر و RMSE همه در ۳ سانتی متر هستند که دقت ارتفاع بالایی دارد.

ما مسیر حرکت اجسام متحرک را ارزیابی کرده ایم. روش ارائه شده در این مقاله نتایج خوبی را هم در دقت مسطح و هم در دقت ارتفاع به دست آورده است. در مرحله بعد، اطلاعات هندسی اجسام متحرک را ارزیابی می کنیم. اولین قدم اندازه‌گیری پهن‌ترین حالت بدن با باز کردن پاها به اندازه عرض شانه و بازوهای آویزان طبیعی است. سپس، نتایج اندازه گیری شده به عنوان مقدار واقعی عرض شی در نظر گرفته می شود. مقدار واقعی ارتفاع جسم به روش معمول به دست می آید. صاف بایستید و پاشنه ها را کنار هم قرار دهید و ارتفاع را از پاشنه تا بالای سر اندازه بگیرید. ما عرض و ارتفاع محاسبه شده را با مقدار واقعی در جدول ۷ مقایسه کردیم

w

h

نتایج محاسبه شده از جدول ۲ هستند و

\tilde{w}

\tilde{h}

به ترتیب مقادیر واقعی عرض و ارتفاع هستند. خطا برابر است با مقدار محاسبه شده منهای مقدار واقعی. از نتایج مقایسه، خطاهای ارتفاع همگی کوچک هستند (در عرض ۲ سانتی متر). خطاهای عرض کمی بزرگتر از خطاهای ارتفاع (در عرض ۵ سانتی متر) است.

۶٫ تجسم

ما اشیاء متحرک در ویدیوی نظارتی را به فضای جغرافیایی سه بعدی نگاشت کردیم، که نه تنها می تواند بر مضرات افزونگی ویدیو غلبه کند، بلکه برای مدیران مفید است تا به طور شهودی اشیاء را نظارت کنند و درک اندازه گیری، آمار و تجزیه و تحلیل را تسهیل کند. اشیاء. مدل اطلاعات جغرافیایی سه بعدی مورد استفاده در این مقاله با فتوگرامتری وسیله نقلیه هوایی بدون سرنشین داجیانگ به دست آمد. ریشه میانگین مربعات خطای موقعیت مسطح و ارزیابی به عنوان استاندارد دقت استفاده می شود. معادلات مربوطه عبارتند از:

RMSE (x, y) = \sum i = 1 n ( x i - x ˜ i ) 2 + ( y i - y ˜ i ) 2 n ---------------------⎷,

(۱۸)

RMSE z = \sum i = 1 n ( z i - z ˜ i ) 2 n -----------⎷,

(۱۹)

جایی که ( $x_{i}$ ، $y_{i}$ ، $z_{i}$ ) مختصات در مدل سه بعدی هستند، ( ${\tilde{x}}_{i}$ ، ${\tilde{y}}_{i}$ ، ${\tilde{z}}_{i}$ ) مختصاتی هستند که در میدان اندازه گیری می شوند و n تعداد نقاط است. معادله (۱۸) معادله محاسبه خطای مسطح و معادله (۱۹) معادله محاسبه خطای ارزیابی است. بدون در نظر گرفتن تخت گل، درختان، خانه ها و موقعیت های دیگر، ۶۶ نقطه روی زمین توسط یک ایستگاه کل در مزرعه اندازه گیری شد و مختصات نقطه مربوطه از مدل سه بعدی در دفتر گرفته شد. پس از محاسبه، دقت مسطح مدل سه بعدی ۳٫۷ سانتی متر و دقت ارزیابی ۶٫۵ سانتی متر بود. مدل سه بعدی دقت بالایی دارد.

همانطور که در شکل ۱۵ نشان داده شده است، مسیر حرکت اجسام متحرک در ویدئوی نظارتی در مدل سه بعدی ظاهر شد . ما مسیر اجسام در مدل سه بعدی را از نمای جانبی، نمای بالا و نزدیک به جهت دوربین ارائه کردیم.

در شکل ۱۵ ، به طور شهودی می‌توانیم ببینیم که تمام پنج شیء در امتداد شکاف‌های میان کاشی‌های کف راه می‌روند. جسم اول و چهارم دو چرخش با زاویه راست ایجاد می کنند. اجسام دوم، سوم و پنجم همگی مستقیم راه می روند. همانطور که در شکل ۱۵ ب، ج نشان داده شده است، مسیرهای پنج شی با مسیرهای پیاده روی واقعی یکسان است. در شکل ۱۵ الف، مسیرهای اجسام را می توان یافت که روی زمین نشسته اند، و هیچ تعلیقی وجود ندارد، که نشان می دهد خطای ارتفاع کم است. شکل ۱۵سازگاری بین مسیرهای نگاشت شده و مسیرهای واقعی را نشان می دهد، که به طور کامل نشان می دهد که روش در این مقاله می تواند اطلاعات مکانی – زمانی اشیاء را استخراج کند و دقت موقعیت یابی بالایی دارد.

۷٫ نتیجه گیری

هدف این مقاله تحقق بخشیدن به ادغام اطلاعات جغرافیایی سه بعدی و اجسام متحرک بود. این همجوشی راه را برای فرصت های جدید، نه تنها برای بینایی کامپیوتر، بلکه برای ژئوماتیک هموار می کند. این می تواند به کاربران کمک کند تا یک ویدیو را در یک چارچوب جغرافیایی یکپارچه درک کنند. توانایی به دست آوردن موقعیت جغرافیایی هر جسم متحرک در ویدئو به کیفیت مدل نقشه برداری بستگی دارد که ارتباط نزدیکی با مدل دوربین، مختصات پیکسل شی و دقت DSM دارد. در این مقاله، مدل دوربین با کالیبراسیون دوربین تعیین شد، استخراج اجسام متحرک توسط YOLOv5 و SORT عمیق و DSM توسط یک مدل جغرافیایی سه بعدی به دست آمد. پس از تصحیح اعوجاج، مختصات پیکسلی اجسام متحرک به مدل نگاشت ارسال شد. ما اجسام متحرک را با اطلاعات مکانی شناختیم و سپس عرض و ارتفاع جسم را محاسبه کردیم. در نهایت، مسیر حرکت اجسام در یک صحنه جغرافیایی سه بعدی ارائه شد. برای بررسی اثربخشی روش پیشنهادی، نتایج تجربی با مقادیر واقعی مقایسه شد. نتایج مقایسه نشان می دهد که روش پیشنهادی به دقت بسیار خوبی در موقعیت جغرافیایی و اندازه گیری هندسی اجسام متحرک در ویدئوهای نظارتی دست یافته است.

چارچوب پیشنهادی در این مقاله از اهمیت بالایی برخوردار است و ایده هایی برای تحقیقات مرتبط ارائه می دهد. ما مختصات پیکسل‌ها را به مختصات جغرافیایی سه‌بعدی تجزیه کردیم تا به موقعیت‌یابی و اندازه‌گیری دقیق اشیاء نظارتی دست یابیم، که پشتیبانی فنی مطلوبی را برای امنیت شهری، از جمله تجزیه و تحلیل مکانی-زمانی اشیاء، جستجوی اشیا، هشدارهای غیرعادی، و آمار اشیا فراهم می‌کند. در عین حال، آن نیز یک موضوع فرعی از برنامه ۳DCM است. برخی از محققان با اندازه گیری سرعت راه رفتن افراد شروع به مطالعه امید به زندگی کرده اند. شکی نیست که داده های مکانی- زمانی که ما به دست آوردیم می تواند داده های تحلیلی را برای این محققان فراهم کند. بر اساس اهمیت موضوع تحقیق، ادغام بیان چند دوربین و چند شی را در یک صحنه جغرافیایی سه بعدی یکپارچه مطالعه خواهیم کرد.

منابع

الهاروس، او. المعادد، ن. المعادد، س. مروری بر سیستم های نظارت تصویری. J. Vis. اشتراک. تصویر نشان می دهد. ۲۰۲۱ ، ۷۷ ، ۱۰۳۱۱۶٫ [ Google Scholar ] [ CrossRef ]
لی، SC; نواتیا، R. ابزار کالیبراسیون دوربین قوی برای دوربین های نظارت تصویری در محیط شهری. در مجموعه مقالات کارگاه های آموزشی CVPR 2011، کلرادو اسپرینگز، CO، ایالات متحده آمریکا، ۲۰-۲۵ ژوئن ۲۰۱۱٫ صص ۶۲-۶۷٫ [ Google Scholar ]
الدرندالی، کالیفرنیا؛ عبدالباسط، م. عبدالفتح، L. پوشش نظارتی PTZ بر اساس هوش مصنوعی برای شهرهای هوشمند. بین المللی J. Inf. مدیریت ۲۰۱۹ ، ۴۹ ، ۵۲۰-۵۳۲٫ [ Google Scholar ] [ CrossRef ]
لیو، اس. لیو، دی. سریواستاوا، جی. پولاپ، دی. Woźniak, M. بررسی اجمالی و روش های الگوریتم های فیلتر همبستگی در ردیابی شی. هوش پیچیده سیستم ۲۰۲۰ ، ۷ ، ۱۸۹۵-۱۹۱۷٫ [ Google Scholar ] [ CrossRef ]
کاوازاکی، ن. Takai, Y. سیستم نظارت تصویری برای نظارت امنیتی بر اساس واقعیت افزوده. در مجموعه مقالات دوازدهمین کنفرانس بین المللی واقعیت مصنوعی و تله وجود، توکیو، ژاپن، ۴-۶ دسامبر ۲۰۰۲٫ ص ۴-۶٫ [ Google Scholar ]
سانکارانارایانان، ک. دیویس، JW یک چارچوب ثبت خطی سریع برای هماهنگی GIS چند دوربینی. در مجموعه مقالات پنجمین کنفرانس بین المللی IEEE در سال ۲۰۰۸ در زمینه نظارت بر ویدئو و سیگنال پیشرفته، سانتافه، NM، ایالات متحده، ۱ تا ۳ سپتامبر ۲۰۰۸٫ صص ۲۴۵-۲۵۱٫ [ Google Scholar ]
زی، ی. وانگ، ام. لیو، ایکس. مائو، بی. Wang, F. ادغام اجسام متحرک ویدئویی چند دوربینی و GIS. ISPRS Int. جی. ژئو. Inf. ۲۰۱۹ ، ۸ ، ۵۶۱٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
زی، ی. وانگ، ام. لیو، ایکس. Wu, Y. ادغام GIS و اجسام متحرک در ویدئوهای نظارتی. ISPRS Int. جی. ژئو. Inf. ۲۰۱۷ ، ۶ ، ۹۴٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
گیرگنسون، ا. کیمبر، دی. وان، جی. یانگ، تی. شیپمن، اف. ترنر، تی. ریفل، ای. ویلکاکس، ال. چن، اف. Dunnigan، T. Dots: پشتیبانی از نظارت تصویری موثر. در مجموعه مقالات پانزدهمین کنفرانس بین المللی ACM در چند رسانه ای، باواریا، آلمان، ۲۴-۲۹ سپتامبر ۲۰۰۷٫ ص ۴۲۳-۴۳۲٫ [ Google Scholar ]
هان، ال. هوانگ، بی. Chen, L. یکپارچه سازی و کاربرد سیستم نظارت تصویری و ۳DGIS. در مجموعه مقالات ۲۰۱۰ هجدهمین کنفرانس بین المللی ژئوانفورماتیک، پکن، چین، ۱۸-۲۰ ژوئن ۲۰۱۰٫ صص ۱-۵٫ [ Google Scholar ]
ژنگ، جی. ژانگ، دی. ژانگ، ز. Lu, X. یک سیستم یکپارچه نظارت تصویری و GIS. IOP Conf. سر. محیط زمین. علمی ۲۰۱۸ , ۱۷۰ , ۰۲۲۰۸۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
زی، ی. وانگ، ام. لیو، ایکس. Wu, Y. خلاصه تصویری نظارت در GIS. ISPRS Int. J. Geo Inf. ۲۰۱۷ ، ۶ ، ۳۳۳٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
آهنگ، اچ. لیو، ایکس. ژانگ، ایکس. Hu, J. نظارت در زمان واقعی برای شمارش جمعیت با استفاده از نظارت تصویری و GIS. در مجموعه مقالات دومین کنفرانس بین المللی ۲۰۱۲ سنجش از دور، محیط زیست و مهندسی حمل و نقل، نانجینگ، چین، ۱ تا ۳ ژوئن ۲۰۱۲٫ صص ۱-۴٫ [ Google Scholar ]
Zhang, Z. یک تکنیک جدید انعطاف پذیر برای کالیبراسیون دوربین. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۰۰ ، ۲۲ ، ۱۳۳۰-۱۳۳۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
هارتلی، RI خود کالیبراسیون دوربین های ثابت. بین المللی جی. کامپیوتر. Vis. ۱۹۹۷ ، ۲۲ ، ۵-۲۳٫ [ Google Scholar ] [ CrossRef ]
Triggs، B. Autocalibration و Quadric مطلق. در مجموعه مقالات کنفرانس انجمن رایانه ای IEEE در مورد دید رایانه و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، ۱۷-۱۹ ژوئن ۱۹۹۷٫ صص ۶۰۹-۶۱۴٫ [ Google Scholar ]
Lu, XX مروری بر راه‌حل‌ها برای مسئله نقطه‌-نقطه پرسپکتیو در تخمین موقعیت دوربین. J. Phys. Conf. سر. ۲۰۱۸ , ۱۰۸۷ , ۰۵۲۰۰۹٫ [ Google Scholar ] [ CrossRef ]
لپتیت، وی. مورنو نوگر، اف. Fua, P. Epnp: یک راه حل دقیق o (n) برای مسئله pnp. بین المللی جی. کامپیوتر. Vis. ۲۰۰۹ ، ۸۱ ، ۱۵۵٫ [ Google Scholar ] [ CrossRef ] نسخه سبز ]
لی، اس. خو، سی. Xie، M. یک راه حل قوی O (n) برای مسئله پرسپکتیو-n-نقطه. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۱۲ ، ۳۴ ، ۱۴۴۴-۱۴۵۰٫ [ Google Scholar ] [ CrossRef ]
کالینز، آر. تسین، ی. میلر، جی آر. Lipton، A. استفاده از یک DEM برای تعیین مسیرهای جسم مکانی. در مجموعه مقالات کارگاه آموزشی درک تصویر دارپا، مونتری، کالیفرنیا، ایالات متحده آمریکا، ۲۰ تا ۲۳ نوامبر ۱۹۹۸٫ صص ۱۱۵-۱۲۲٫ [ Google Scholar ]
میلوساولیویچ، آ. رانچیچ، دی. دیمیتریویچ، آ. پردیچ، بی. Mihajlović، V. یکپارچه سازی GIS و نظارت تصویری. بین المللی جی. جئوگر. Inf. علمی ۲۰۱۶ ، ۱-۱۹٫ [ Google Scholar ] [ CrossRef ]
میلوساولیویچ، آ. رانچیچ، دی. دیمیتریویچ، آ. پردیچ، بی. Mihajlović, V. A Method for Estimating Surveillance Video Georeferences. ISPRS Int. جی. ژئو. Inf. ۲۰۱۷ ، ۶ ، ۲۱۱٫ [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
گیرشیک، آر. دوناهو، جی. دارل، تی. Malik, J. Rich دارای سلسله مراتب برای تشخیص دقیق شی و تقسیم بندی معنایی هستند. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده، ۲۳ تا ۲۸ ژوئن ۲۰۱۴٫ صص ۵۸۰-۵۸۷٫ [ Google Scholar ]
Girshick, R. Fast r-cnn. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، سانتیاگو، شیلی، ۷ تا ۱۳ دسامبر ۲۰۱۵٫ ص ۱۴۴۰-۱۴۴۸٫ [ Google Scholar ]
رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster r-cnn: به سمت تشخیص شی در زمان واقعی با شبکه های پیشنهادی منطقه. Adv. عصبی Inf. سیستم پردازش ۲۰۱۵ ، ۲۸ ، ۹۱-۹۹٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
او، ک. گیوکسری، جی. دلار، پی. Girshick, R. Mask r-cnn. در مجموعه مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، ۲۲ تا ۲۹ اکتبر ۲۰۱۷؛ صفحات ۲۹۶۱-۲۹۶۹٫ [ Google Scholar ]
ردمون، جی. دیووالا، س. گیرشیک، آر. فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ صص ۷۷۹-۷۸۸٫ [ Google Scholar ]
لیو، دبلیو. آنگلوف، دی. ایرهان، د. سگدی، سی. رید، اس. فو، سی.-ای. Berg, AC Ssd: آشکارساز چند جعبه ای تک شات. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، ۱۱ تا ۱۴ اکتبر ۲۰۱۶؛ ص ۲۱-۳۷٫ [ Google Scholar ]
هوانگ، سی. لی، ی. نواتیا، R. ردیابی هدف چندگانه با ارتباط سلسله مراتبی مبتنی بر یادگیری پاسخ های تشخیص. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۱۲ ، ۳۵ ، ۸۹۸-۹۱۰٫ [ Google Scholar ] [ CrossRef ] [ PubMed ]
سلام.؛ وی، ایکس. هنگ، ایکس. شی، دبلیو. Gong, Y. ردیابی چند دوربین چند هدفه با تخصیص مسیر به هدف. IEEE Trans. پردازش تصویر ۲۰۲۰ ، ۲۹ ، ۵۱۹۱–۵۲۰۵٫ [ Google Scholar ] [ CrossRef ]
خو، جی. بو، سی. وانگ، دی. رویکرد جدید ردیابی دوربین چند هدفه بر اساس گروه بندی ویژگی ها. محاسبه کنید. برق مهندس ۲۰۲۱ ، ۹۲ ، ۱۰۷۱۵۳٫ [ Google Scholar ] [ CrossRef ]
وانگ، ز. ژنگ، ال. لیو، ی. لی، ی. Wang, S. به سمت ردیابی چند شی در زمان واقعی. در مجموعه مقالات چشم انداز کامپیوتر–ECCV 2020: شانزدهمین کنفرانس اروپایی، گلاسکو، بریتانیا، ۲۳ تا ۲۸ اوت ۲۰۲۰؛ صص ۱۰۷-۱۲۲٫ [ Google Scholar ]
ریستانی، ا. Tomasi, C. ویژگی های ردیابی و شناسایی مجدد چند دوربین چند هدفه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸؛ ص ۶۰۳۶–۶۰۴۶٫ [ Google Scholar ]
ژانگ، ز. وو، جی. ژانگ، ایکس. Zhang، C. ردیابی چند هدفه، چند دوربینی توسط خوشه بندی سلسله مراتبی: پیشرفت اخیر در پروژه dukemtmc. arXiv ۲۰۱۷ , arXiv:1712.09531. [ Google Scholar ]
تاگور، NK; سینگ، آ. منچ، س. Chattopadhyay، P. شناسایی مجدد افراد مبتنی بر یادگیری عمیق. arXiv ۲۰۲۰ ، arXiv:2005.03293. [ Google Scholar ]
کاتکره، ا. معزی، س. کورامورا، دی. کلی، پی. Jain, R. به سمت محیط های همهجانبه مبتنی بر ویدیو. چندتایی. سیستم ۱۹۹۷ ، ۵ ، ۶۹-۸۵٫ [ Google Scholar ] [ CrossRef ]
تاکه هارا، تی. ناکاشیما، ی. نیتا، ن. باباگوچی، N. دیورامای دیجیتال: تجسم دنیای واقعی مبتنی بر حس. در مجموعه مقالات کنفرانس بین المللی پردازش اطلاعات و مدیریت عدم قطعیت در سیستم های مبتنی بر دانش، دورتموند، آلمان، ۲۸ ژوئن تا ۲ ژوئیه ۲۰۱۰٫ Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۰; جلد دوم، ص ۶۶۳-۶۷۲٫ [ Google Scholar ]
ژانگ، ایکس. لیو، ایکس. Song, H. نظارت تصویری GIS: یک برنامه جدید. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی ژئوانفورماتیک ۲۰۱۳، کایفنگ، چین، ۲۰ تا ۲۲ ژوئن ۲۰۱۳٫ صص ۱-۴٫ [ Google Scholar ]
یانگ، ی. چانگ، ام.-سی. تو، پ. Lyu, S. دیدن همانطور که اتفاق می افتد: تجسم رویداد ویدیوی سه بعدی در زمان واقعی. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در مورد پردازش تصویر (ICIP)، کبک، ON، کانادا، ۲۷ تا ۳۰ سپتامبر ۲۰۱۵٫ صص ۲۸۷۵-۲۸۷۹٫ [ Google Scholar ]
وویکه، ن. بیولی، ا. پائولوس، دی. ردیابی آنلاین و بیدرنگ ساده با متریک ارتباط عمیق. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در مورد پردازش تصویر (ICIP)، پکن، چین، ۱۷ تا ۲۰ سپتامبر ۲۰۱۷؛ صص ۳۶۴۵–۳۶۴۹٫ [ Google Scholar ]

شکل ۱٫ چارچوب ترکیبی اطلاعات جغرافیایی سه بعدی و اجسام متحرک در ویدئوهای نظارتی.

شکل ۲٫ تقاطع پرتو با DSM. ( الف ) مدل محاسبه محل تقاطع بین یک پرتو تصویربرداری و DSM. ( ب ) چه زمانی

Elev (X_{N}, Y_{N}) > Z_{N}

، درون یابی وجود دارد.

شکل ۳٫ معماری شبکه YOLOv5. (۱) ستون فقرات: CSPDarknet برای استخراج ویژگی. (۲) گردن: PANet برای فیوژن ویژگی. (۳) سر: لایه YOLO برای پیش بینی.

شکل ۴٫ نتایج ردیابی شی. اعداد ۱، ۲، ۳، ۴، ۵ شناسه شی در این تصویر هستند. اندازه و موقعیت جعبه مرزی (

u_{l}

v_{u}

u_{r}

v_{d}

شکل ۵٫ هشت تصویر از صفحه شطرنج.

شکل ۶٫ اندازه گیری مختصات سه بعدی نشانه ها. ( الف ) قبل از اصلاح تحریف؛ ( ب ) پس از تصحیح اعوجاج.

شکل ۷٫ فریم مربوط به فیلم اصلی و فیلم ردیابی. از چپ به راست، پنج تصویر در ردیف اول، ۲۰۰، ۴۰۰، ۶۰۰ و ۸۰۰ فریم ویدیوی اصلی هستند. پنج تصویر در ردیف ۲، فریم های ۲۰۰، ۴۰۰، ۶۰۰ و ۸۰۰ فیلم ردیابی هستند.

شکل ۸٫ مسیرهای مسطح اجسام متحرک در سیستم مختصات جهان که در آن مختصات X (m) و آبسیسا Y (m) است.

شکل ۹٫ مسیرهای ارتفاعی اجسام متحرک در سیستم مختصات جهان. ( الف ) مسیرهای اولیه در ارتفاع. ( ب ) مسیرها در ارتفاع فیلتر شده توسط فیلتر میانه با اندازه پنجره ۲۵٫ ( ج ) مسیرهای ارتفاعی فیلتر شده توسط چند جمله ای مکعبی. مختصات Z (m) و آبسیسا شماره فریم ویدیو در ( a – c ) است.

شکل ۱۰٫ مسیرهای سه بعدی اجسام متحرک در سیستم مختصات جهان در یک نمودار. موقعیت های مسطح نتایج نقشه برداری هستند و ارتفاعات نتایجی هستند که ابتدا با فیلتر میانه فیلتر شده و سپس توسط یک چند جمله ای مکعبی برازش می شوند.

شکل ۱۱٫ عرض اجسام متحرک. ( الف ) نتایج محاسبات اصلی عرض جسم. ( ب ) نتایج محاسبه عرض شی فیلتر شده توسط فیلتر میانه. مختصات عرض (m) و آبسیسا شماره فریم ویدیو است.

شکل ۱۲٫ ارتفاع اجسام متحرک. ( الف ) نتایج محاسبه اصلی ارتفاع جسم. ( ب ) نتایج محاسبه ارتفاع جسم فیلتر شده توسط فیلتر میانه. مختصات ارتفاع (m) و ابسیسا شماره فریم ویدیو است.

شکل ۱۳٫ مقایسه موقعیت مسطح بین مسیرهای اندازه گیری شده و نگاشت شده که در آن مختصات X (m) و آبسیسا Y(m) است.

شکل ۱۴٫ مقایسه ارتفاع بین مسیرهای اندازه گیری شده و نگاشت شده که در آن مختصات Z (m) و آبسیسا شماره فریم ویدئو است.

شکل ۱۵٫ نمایش مسیرهای چند شی در مدل سه بعدی از سه نمای مختلف. ( الف ) نمای جانبی؛ ( ب ) نمای بالا؛ ( ج ) تقریباً جهت دوربین.

هوش مکانی اتیم تحقیقاتی ونوس نصیرفام