IAGC: شبکه کانولوشن گراف توجه تعاملی برای تقسیم بندی معنایی ابرهای نقطه ای در محیط داخلی ساختمان

شبکه های مبتنی بر نقطه به دلیل خط پایه شبکه عصبی پیچیده سه بعدی (CNN) به طور گسترده در بخش بندی معنایی ابرهای نقطه استفاده شده اند. بسیاری از روش‌های فعلی برای سازمان‌دهی مجدد ساختار ابرهای نقطه‌ای برای شبکه‌های CNN سه بعدی به بازنمایی‌های منظم میانی متوسل می‌شوند، اما ممکن است از اطلاعات زمینه‌ای ذاتی غافل شوند. در کار خود، ما بر گرفتن ویژگی‌های متمایز با مکانیسم توجه تعاملی تمرکز می‌کنیم و یک روش جدید متشکل از شبکه توجه دوگانه منطقه‌ای و شبکه پیچیدگی نمودار جهانی پیشنهاد می‌کنیم. در مرحله اول، ما نقاط همگن را در ابرنقطه‌ها خوشه‌بندی می‌کنیم و یک نمودار ابرنقطه می‌سازیم تا به طور موثر پیچیدگی محاسبات را کاهش دهیم و روابط توپولوژیکی فضایی را بین ابرنقاط حفظ کنیم. ثانیاً ما توجه موقعیت متقاطع و توجه متقاطع کانال را در یک ماژول توجه به سر ادغام می کنیم و یک شبکه پرسپترون چندلایه (MLP) مبتنی بر دروازه توجه تعاملی (IAG) جدید (IAG-MLP) طراحی می کنیم که برای گسترش گیرنده استفاده می شود. زمینه و افزایش ویژگی های متمایز در تعبیه های محلی. پس از آن، ترکیب بلوک های IAG-MLP انباشته و شبکه پیچیدگی نمودار جهانی، به نام IAGC، برای یادگیری ویژگی های محلی با ابعاد بالا در سوپرنقاط و به روز رسانی تدریجی این جاسازی های محلی با شبکه شبکه عصبی مکرر (RNN) پیشنهاد شده است. چارچوب پیشنهادی ما بر روی سه معیار باز داخلی ارزیابی می‌شود، و نتایج اعتبارسنجی متقابل ۶ برابری مجموعه داده S3DIS نشان می‌دهد که شبکه محلی IAG-MLP حدود ۱% و ۶ را به ارمغان می‌آورد. ۱٪ بهبود در دقت کلی (OA) و میانگین کلاس تقاطع بیش از اتحاد (mIoU)، در مقایسه با شبکه محلی PointNet. علاوه بر این، شبکه IAGC ما از سایر رویکردهای مبتنی بر CNN در مجموعه داده ScanNet V2 حداقل ۷٫۹٪ در mIoU عملکرد بهتری دارد. نتایج تجربی نشان می‌دهد که روش پیشنهادی می‌تواند اطلاعات زمینه‌ای را بهتر دریافت کند و به عملکرد کلی رقابتی در کار تقسیم‌بندی معنایی دست یابد.

کلید واژه ها:

یادگیری عمیق ؛ ابر نقطه ; تقسیم بندی معنایی ; مکانیسم توجه به خود ؛ پیچیدگی نمودار

۱٫ مقدمه

در بازسازی محیط های داخلی، ابرهای نقطه اسکن لیزری به طور کلی استفاده شده است، که اطلاعات مکانی با دقت بالا و غنی را برای مدل سازی اطلاعات ساختمان بعدی (BIM) فراهم می کند [ ۱ ]. با این وجود، بخش بندی معنایی موثر باید قبل از بازیابی موجودیت های هندسی انجام شود. این می تواند درک بهتر صحنه و مدل سازی مبتنی بر موجودیت با دقت بالا را تقویت کند [ ۲ ، ۳ ].
در چند سال گذشته، عملیات بخش‌بندی عمدتاً بر طراحی ویژگی‌های دست ساز متمرکز شده است [ ۴ ، ۵ ، ۶] با استفاده از دانش تجربی در مورد هندسه یا تقارن فضایی. آنها نسبتاً محدود به سناریوهای خاص با موارد اولیه هندسی خاص هستند. با این حال، موجودیت‌های داخلی ترکیبی، مانند میز، صندلی، قفسه کتاب و غیره، ساختارهای هندسی نامنظم یا اطلاعات فیزیکی متفاوتی را نشان می‌دهند و به سختی می‌توان آنها را از نظر معنایی با ویژگی‌های دست ساز تقسیم کرد. علاوه بر این، برخی از اطلاعات پنهان غیربصری پنهان در ویژگی‌های سطح بالا ممکن است نادیده گرفته شوند، و تمایز بین دسته‌های مختلف اشیاء با تفاوت‌های حاشیه‌ای را دشوار می‌سازد. علاوه بر این، چیدمان پیچیده محیط های داخلی منجر به مسدود شدن و ناقص شدن ابرهای نقطه ای می شود. ممکن است طراحی ویژگی مصنوعی را مختل کند و دقت بخش‌بندی را کاهش دهد. در همین حال،۷ ، ۸ ] و بینایی کامپیوتری [ ۹ ، ۱۰ ]، بسیاری از تحقیقات اکتشافی تلاش کردند تا مستقیماً شبکه عصبی کانولوشن دوبعدی (CNN) از قبل بالغ شده را برای اشاره به ابرها برای استخراج خودکار ویژگی‌های با ابعاد بالا برای طبقه‌بندی شکل، تقسیم‌بندی، و تشخیص اشیا اعمال کنند. ردیابی [ ۱۱ ، ۱۲ ]. با توجه به ویژگی‌های نامنظم، ناهموار و بدون ساختار ابرهای نقطه‌ای، اکثر روش‌ها تمایل داشتند تا ابر نقطه‌ای را به ساختارهای داده‌ای منظم به‌عنوان نمایش میانی برای کاربرد CNN دو بعدی سازماندهی کنند. از سوی دیگر، این پیش‌بینی داده منجر به فرآیندهای تبدیل زائد و زمان‌بر و فضای ذخیره‌سازی قابل‌توجهی می‌شود.
اخیراً، PointNet [ ۱۳ ]، یک کار پیشگام، استخراج ویژگی نقطه‌ای را بدون تغییر داده‌های ورودی انجام داد. این شامل چندین عملیات ثابت جایگشت مشترک، لایه‌های پرسپترون چندلایه (MLP) و یک لایه max-pooling است. با این حال، نمایش کارآمد و مختصر یادگیری ویژگی نقطه‌ای نمی‌تواند ساختارهای محلی را در صحنه‌های پیچیده‌تر به تصویر بکشد. یک شبکه کارآمد و قوی، PointNet++ [ ۱۴]، برای گرفتن ساختارهای هندسی از مقیاس های چندگانه با اعمال بازگشتی PointNet به ساختارهای سلسله مراتبی پیشنهاد شده است. ساختار سلسله مراتبی از مجموعه ای از سطوح انتزاعی تشکیل شده است. در هر سطح، لایه نمونه‌گیری و لایه گروه‌بندی را پیاده‌سازی می‌کند تا نقاطی را به‌طور تصادفی از نقاط ورودی انتخاب کرده و محله‌های منطقه‌ای آن‌ها را بسازد، و به دنبال آن یک لایه PointNet برای یادگیری ویژگی‌های هندسی محلی. با انباشتن این سطوح انتزاعی مجموعه، ویژگی‌های هندسی محلی لایه به لایه جمع می‌شوند و در نهایت ویژگی‌های جهانی به تدریج استخراج می‌شوند تا کل صحنه پیچیده را نشان دهند. سپس، استفاده از PointNet++ الهام بخش بسیاری از شبکه های پیشرفته بعدی شد. آنها عملیات نقطه‌ای را در محله‌های محلی انجام می‌دهند و در عین حال ویژگی‌های جهانی را به صورت سلسله مراتبی در سراسر کل ابر نقطه‌ای در مقیاس بزرگ جمع‌آوری می‌کنند. با این وجود، بر خلاف ارتباط فضایی طبیعی بین پیکسل های مجاور منظم تصاویر، اطلاعات بالقوه روابط توپولوژیکی فضایی بین نقاط مختلف را نمی توان به طور کامل در میان نقاط نامرتب همسایه یاد گرفت. در نتیجه، شبکه های مبتنی بر نمودار [۱۵ ، ۱۶ ، ۱۷ ، ۱۸ ] پیشنهاد شده است که هر نقطه را به عنوان یک راس در ساختار نمودار در نظر گرفته و ویژگی آن را بر اساس اطلاعات زمینه ای بین لبه ها و رئوس متصل به روز کند. با این حال، ساختن یک ساختار نمودار جهانی در میان ابرهای عظیم نقطه، فرآیند تقسیم‌بندی را پیچیده می‌کند.
در همین حال، طیف وسیعی از شبکه‌های ترانسفورماتور [ ۱۹ ] که در اصل برای ترجمه ماشینی طراحی شده بودند، ظرفیت بیشتری را برای مدل‌سازی وابستگی‌های متنی نسبت به CNN و شبکه‌های عصبی بازگشتی (RNN) با ارتباط صریح موقعیت‌های مختلف یک دنباله نشان داده‌اند. بسیاری از انواع Transformer کاربردهای خود را در زمینه بینایی کامپیوتر گسترش داده اند. با این حال، در مورد ابرهای نقطه، مکانیسم توجه کامل ناکارآمدی خود را در محاسبه بی رویه امتیازات توجه در بین نقاط عظیم نشان می دهد.
به طور کلی، محدودیت های فعلی روش های مبتنی بر CNN در جهت های زیر نهفته است:
  • ویژگی‌های ابعادی بالا بر اساس نقاط منطقه‌ای، که می‌توانند اشیاء مختلف را با ویژگی‌های مشابه اما موقعیت‌های متمایز تشخیص دهند، به طور کامل در هسته‌های پیچشی طراحی‌شده استفاده نمی‌شوند.
  • اطلاعات متنی به دست آمده از ساختار نمودار کاملاً متصل برای همه نقاط، نه تنها کارایی را کاهش می دهد، بلکه بر تعمیم تعامل جهانی تأثیر منفی می گذارد.
برای متعادل کردن الزامات برای اطلاعات ویژگی‌های غنی و کارایی بالا، ما یک شبکه پیچیدگی گراف مبتنی بر توجه تعاملی (IAGC) جدید را پیشنهاد می‌کنیم تا به طور انتخابی به ویژگی‌های قابل توجه در هر مجموعه خوشه‌بندی همگن که ابرنقطه‌ها نامیده می‌شوند [ ۲۰ ] توجه شود. و سپس، با توجه به نمودار جهانی ساخته شده توسط سوپرنقاط، ما به تدریج جاسازی را با پیوست کردن ویژگی های ابرنقطه متصل به ابرنقطه مرکزی ورودی، به روز می کنیم. به طور مشخص، با الهام از ایده gMLPs [ ۲۱]، یک معماری gMLP با توجه تعاملی اکتشافی و سبک (IAG-MLP) طراحی شده است تا به صورت پویا وزن‌های توجه مناسب را به بخش‌هایی از کانال‌های ویژگی برای یادگیری ویژگی‌های محلی در سوپرپوینت‌ها اختصاص دهد، که می‌تواند موثرتر از Transformers باشد. علاوه بر این، با یکپارچه‌سازی جهانی ویژگی‌های دیگر ابرنقطه‌ها، یک تغییر ساده‌شده از معماری حافظه بلند مدت (LSTM) [ ۲۲ ]، که به عنوان واحد بازگشتی دردار (GRU) [ ۲۳ ] شناخته می‌شود، می‌تواند در معنایی سطح ابرنقطه پیاده‌سازی شود. استنتاج
بنابراین، سهم اصلی الگوریتم پیشنهادی به شرح زیر خلاصه می شود:
  • یک نوع ترانسفورماتور متقاطع دوگانه، به نام IAG-MLP، پیشنهاد شده است که مستقیماً به سوپرنقطه‌هایی که از ابرهای نقطه خام به بخش‌های همگن مبتنی بر هندسه و مبتنی بر رنگ سازماندهی مجدد می‌شوند، جهت‌گیری شود و توانایی ثبت تصاویر با ابعاد بالا را افزایش دهد. وابستگی‌های زمینه‌ای در تعبیه‌های محلی با یادگیری توجه موقعیت متقاطع و توجه بین کانالی.
  • با انتشار پیام‌های متنی از طریق ابرنقطه‌های مجاور و سوپر لبه‌های مرتبط، یک شبکه گراف سرتاسر ساخته می‌شود تا به تدریج ویژگی‌های جاسازی‌شده ابرنقطه‌ها را به‌روزرسانی کند، و در نهایت استنتاج معنایی سطح ابرنقطه را به استنتاج ریزدانه سطح نقطه تبدیل کند.
  • ما تحلیل‌های نظری و تجربی معماری پیشنهادی IAGC و همچنین آزمایش‌های کمی و کیفی را در سه معیار داخلی ارائه می‌کنیم که نشان‌دهنده اثربخشی و عملکرد قابل توجه آن است.
ادامه مقاله به شرح زیر تدوین شده است. بخش ۲ به بررسی مختصری از کار مرتبط می‌پردازد. بخش ۳ جزئیات روش تقسیم بندی معنایی پیشنهادی را شرح می دهد. بخش ۴ نتایج تجربی کمی و کیفی را برای اعتبار سنجی رویکرد تقسیم بندی پیشنهادی ارائه می دهد و بخش ۵ چندین نکته پایانی را نشان می دهد.

۲٫ کارهای مرتبط

رویکرد کلاسیک برای برچسب‌گذاری معنایی ابرهای نقطه‌ای در مقیاس بزرگ، سازماندهی مجدد ابرهای نقطه‌ای به یک ساختار منظم برای یک تابع پیچشی فشرده است. در همین حال، بسیاری از توابع تجمع بر اساس ساختار گراف در حال حاضر برای گرفتن ارتباطات زیربنایی بین نقاط مختلف پیشنهاد شده‌اند. این بخش عمدتاً روش‌های تقسیم‌بندی معنایی را برای ابرهای نقطه، ساختار داده‌های ابرهای نقطه‌ای که به شبکه‌های مبتنی بر یادگیری عمیق تغذیه می‌شوند، انواع ترانسفورماتور غالب، و پیچیدگی‌های نمودار برای درک زمینه‌ای را بررسی می‌کند.

۲٫۱٫ تقسیم بندی معنایی برای ابرهای نقطه ای

از نظر تقسیم بندی معنایی برای درک بهتر صحنه های داخلی، می توان آنها را به رویکردهای مدل محور، دانش محور و داده محور تقسیم کرد. رویکردهای مبتنی بر مدل ابتدا مدل‌های بالقوه اولیه‌های هندسی (مثلاً خطوط، صفحات، مکعب‌ها و استوانه‌ها) را تولید می‌کنند و سپس بزرگترین خوشه‌ای را پیدا می‌کنند که به بهترین شکل با حدس‌های هندسی مطابقت دارد [ ۲۴ ]. آنها می توانند به طور مکرر فرضیه و روش های تأیید را برای یافتن چندین اولیه پیاده سازی کنند، اما به دلیل عملکرد ضعیف تقسیم بندی در هندسه های بدون ساختار، به صورت محلی در محیط های پیچیده داخلی بهینه هستند.
به منظور تحقق راه‌حل‌های بهینه‌سازی جهانی برای اشیاء مختلف، رویکردهای دانش محور، یعنی هستی‌شناسی محور، انتخاب بهینه الگوریتم‌ها را برای هندسه‌های خاص با ایجاد یک هستی‌شناسی که ویژگی‌های داده، الگوریتم‌های بالقوه و دانش قبلی صریح را ادغام می‌کند، افزایش می‌دهد. به طور خاص، اطلاعات خارجی مدل هستی‌شناسی را به اعمال الگوریتم‌های مختلف بر اساس ویژگی‌های نقطه‌ای مختلف هدایت می‌کند، و نتایج تقسیم‌بندی به طور معکوس شکاف ویژگی را در بین دسته‌های مختلف در فرآیند اکتساب اولیه افزایش می‌دهد [ ۲۵ ، ۲۶ ]. بنابراین، هستی شناسی به عنوان یک نمودار متا برای به اشتراک گذاری و استفاده مجدد از دانش خارجی در کل گردش کار عمل می کند و در نهایت به بهینه سازی جهانی کمک می کند.
از سوی دیگر، رویکردهای مبتنی بر داده‌های پیشرفته بر طراحی شبکه‌های یادگیری عمیق معقول و بهبود کیفیت داده‌های آموزشی تمرکز دارند. از نظر تئوری، ویژگی‌های ابرهای نقطه‌ای را می‌توان به طور ضمنی به شبکه‌های عصبی چندلایه بدون تداخل دانش خارجی نگاشت و قادر به تقسیم‌بندی دسته‌های مختلف اشیاء، به‌ویژه برای موجودیت‌های مرکب و پرت باشد.

۲٫۲٫ شبکه های یادگیری عمیق برای تقسیم بندی معنایی

روش‌های یادگیری عمیق موجود برای تقسیم‌بندی معنایی را می‌توان با توجه به دانه‌بندی ابرهای نقطه‌ای که استخراج ویژگی بر روی آنها انجام می‌شود، به دو جنبه طبقه‌بندی کرد: شبکه‌های مبتنی بر طرح ریزی و شبکه‌های مبتنی بر نقطه. اغلب شبکه‌های مبتنی بر پیش‌بینی‌شده معمولاً عملیات کانولوشن را اعمال می‌کنند، که عملکرد عالی را بر روی تصاویر دو بعدی یا توالی‌های متنی منظم و فشرده، به ابرهای نقطه‌ای نامرتب و بدون ساختار با نمایش آن‌ها به نمایش‌های منظم متوسط، مانند نمایش مبتنی بر وکسل، اعمال می‌کنند [ ۲۷ ] ، نمایش مبتنی بر Multiview [ ۲۸ ]، یا نمایش شبکه با ابعاد بالاتر [ ۲۹ ]]. به طور معمول، این روش‌ها نه تنها منجر به مصرف غیرضروری حافظه و محاسباتی می‌شوند، بلکه ارتباط فضایی طبیعی میان ابرهای نقطه‌ای را نیز مختل می‌کنند. در مقابل، روش‌های نقطه‌ای، ویژگی‌های یادگیری مستقیم را در ابرهای نقطه خام بدون ایجاد تبدیل داده‌های اضافی امکان‌پذیر می‌کنند. بیشتر شبکه‌های بعدی قابلیت‌های خود را در مدل‌سازی ساختارهای محلی با شبکه بستر مبتنی بر نقطه، PointNet بهبود بخشیدند. برای مثال، PointNet++ [ ۱۴ ] از Furthest Point Sampling (FPS) برای کاهش سلسله مراتبی ابرهای نقطه‌ای و استخراج مکرر ویژگی‌ها از PointNet در هر لایه نمونه‌برداری استفاده کرد. به منظور توصیف صحنه‌های مقیاس بزرگ از وضوح‌های چندگانه، MSSCN [ ۳۰ ] ویژگی‌های نقطه‌ای را با تراکم‌های مختلف، PointSIFT [ ۳۱ ] به هم متصل کرد.] به رمزگذاری هر دو جهت گیری و چند مقیاس برای جزئیات محلی توجه کرد و PointCNN [ ۳۲ ] از یک شبکه نقطه کاملاً کانولوشن با یک سری لایه های انتزاعی، یادگیرندگان ویژگی در مقیاس های مختلف و یک لایه ادغام استفاده کرد. هنگامی که استراتژی نمونه‌گیری تصادفی در صحنه‌های بزرگ زمان‌بر است، زیرا روی نقاط اصلی کار می‌کند، استفاده از سوپروکسل‌ها [ ۳۳ ]]، که از سوپرپیکسل ها در پردازش تصویر دو بعدی الهام گرفته شده اند، تعداد نقاط را تا حد زیادی کاهش می دهد و نمایش طبیعی و فشرده تری را برای عملیات محلی ارائه می دهد. با این وجود، وضوح ثابت سوپروکسل‌ها ممکن است منجر به تقسیم‌بندی نادرست در نواحی حاشیه‌ای چندین اشیا شود، زیرا همسایگی محلی آنها کلاس‌های مختلفی از نقاط را مشخص می‌کند، و در مورد اشیایی با مساحت‌های بزرگ، مانند دیوار، سقف یا کف، غیرضروری است. در همان زمان، با توجه به بهینه سازی انرژی جهانی، ابر نقطه [ ۲۰] با تقسیم‌بندی هندسی و حتی فیزیکی ابرهای نقطه‌ای بدون از پیش تعریف کردن تعداد بخش‌ها ساخته شد، که بخش‌بندی غیرضروری اشیاء با مساحت‌های بزرگ را به حداقل می‌رساند اما روابط توپولوژیکی بین ابرنقطه‌ها را با ساختن یک نمودار جهانی حفظ می‌کند. بعداً، ساخت ابرنقطه‌ها با ایجاد یک فقدان سازگاری برچسب بین برچسب‌های واقعی نقاط و شبه برچسب‌های ابرنقطه در یک شبکه انتها به انتها بهبود یافت [ ۳۴ ]. علاوه بر این، شبکه غیر محلی آبشاری [ ۳۵] ابرنقطه ها را به عنوان واحدهای اساسی پذیرفت و یک عملیات غیرمحلی با سه سطح دانه بندی، شامل سطح همسایگی، سطح ابرنقطه و سطح جهانی ساخت. در نتیجه، زمینه سازی در میان نقاط مختلف مختلف به صورت سلسله مراتبی از طریق انباشته شدن تعدادی از ماژول های غیر محلی تجمیع شد.

۲٫۳٫ شبکه های ترانسفورماتور مبتنی بر توجه

معماری ترانسفورماتور که به طور گسترده در پردازش زبان طبیعی پذیرفته شده است، بر ایجاد روابط متنی در ساختار متوالی رمزگذار-رمزگشا متمرکز است، که معمولاً از چندین ماژول خودتوجهی چند سر پشته‌ای، یک شبکه پیش‌خور (FFN) و یک اتصال باقی‌مانده در هر رمزگذار تشکیل شده است. یا بلوک رمزگشا به عنوان یک عنصر مهم ترانسفورماتور، توجه به خود با هدف تولید وزن‌های دینامیکی از روابط زوجی ورودی‌ها و یادگیری نمایش‌های وابسته به زمینه برای هر نشانه در یک دنباله است.
از آنجایی که شبکه ترانسفورماتور انقلابی پیشرفت چشمگیری در زمینه بینایی کامپیوتر داشته است، مانند Vision Transformer (ViT) اخیر [ ۳۶ ]، استفاده از آن برای یادگیری عمیق در ابرهای نقطه اجتناب ناپذیر است. با این وجود، وقتی صحبت از مجموعه داده های سطح صحنه بزرگتر می شود، ساختار ترانسفورماتور برای ابرهای نقطه سه بعدی نسبتاً گران است زیرا هزینه محاسبات با اندازه ورودی به طور درجه دوم افزایش می یابد. برای پرداختن به این محدودیت‌ها، چندین مدل مشتق شده با استفاده از مکانیسم مهم توجه به خود، اطلاعات متنی محلی را یاد می‌گیرند و وابستگی‌های دوربرد را در فضای ابر نقطه سه بعدی ایجاد می‌کنند. به عنوان مثال، به جای یک لایه MLP ساده یا لایه max-pooling در PointNet، PointTransformer [ ۳۷] از خود توجهی مبتنی بر برداری همراه با تفریق رابطه و اضافه کردن کدگذاری موقعیت برای انتقال سلسله مراتبی به پایین در رمزگذاری ویژگی و انتقال به بالا در رمزگشایی ویژگی استفاده کرد. PointCloudTansformer (PCT) [ ۳۸ ] از یک ترانسفورماتور توجه افست فقط با ماژول های کدگذاری شده برای بهبود یادگیری ویژگی برای طبقه بندی شکل و بخش بندی استفاده کرد. Pointformer [ ۳۹ ] برای مدل‌سازی تعاملات بین نقاط در منطقه محلی با ترانسفورماتورهای محلی چند مقیاسی (LT) و RandLA-Net [ ۴۰ ] با توجه به نقاط نمونه‌برداری تصادفی با کارایی بالا، پیشنهاد شده است. تحقیق در [ ۴۱] از همجوشی دروازه‌ای در ساختارهای منطقه‌ای و توجه فضایی و کانالی در ساختارهای جهانی بهره‌برداری کرد. به طور کلی، انجام مکانیسم توجه در صحنه‌های مقیاس بزرگ ممکن است به حجم کار محاسباتی قابل‌توجهی برای وزن‌های توجه زوجی منجر شود، بنابراین ادغام خود توجهی در بین ساختارهای منطقه‌ای و وابستگی‌های دوربرد در یک نمودار جهانی می‌تواند مؤثرتر باشد.

۲٫۴٫ پیچیدگی نمودار

شبکه پیچیدگی گراف (GCN) [ 42 ، ۴۳ ، ۴۴ ] به دلیل توانایی فزاینده برجسته آن در پردازش داده های بدون ساختار، بدون شک در پردازش ابرهای نقطه ای به کار می رود و به طور کلی به دو گروه طبقه بندی می شود: روش مبتنی بر طیف و روش مبتنی بر فضایی. روش. رویکردهای مبتنی بر طیف با تبدیل نمایش‌های راس به حوزه طیفی با تبدیل فوریه یا پسوندهای آن، کانولاسیون را انجام می‌دهند [ ۴۵ ، ۴۶ ]. در مقابل، رویکردهای مبتنی بر فضایی به طور مستقیم کانولوشن را بر اساس توپولوژی گراف انجام می دهند. به عنوان مثال، PyramNet [ ۴۷] ماتریس کوواریانس را در یک گراف غیر چرخه‌ای جهت‌دهی شده برای کشف ارتباطات منطقه‌ای بین نقاط فرمول‌بندی کرد و یک شبکه توجه هرمی را برای استخراج ویژگی‌هایی با شدت معنایی مختلف پیشنهاد کرد. علاوه بر این، گراف توجه گراف (GAC) [ ۱۸ ] شکل هسته پیچیدگی را با محاسبه وزن توجه در میان نقاط همسایه در یک نمودار متصل تعریف کرد تا اهمیت بخش‌های مربوطه را نشان دهد. به منظور گسترش زمینه‌های دریافتی، MS-RRFSegNet [ ۴۸ ] تقسیم‌بندی ویژگی در سطح سوپروکسل را انجام داد تا زمینه‌های توصیفی بیشتری را به دست آورد. با این حال، این شبکه‌های ذکر شده در بالا، نمودارهای محلی را بر اساس توزیع منطقه‌ای نقاط همسایه ساختند و ذاتاً اطلاعات زمینه‌ای منطقه‌ای را ضبط می‌کنند.

۳٫ روش شناسی

در این مقاله، ما یک شبکه گراف جدید برای تقسیم‌بندی معنایی برای ابرهای نقطه‌ای در مقیاس بزرگ در صحنه‌های داخلی پیشنهاد می‌کنیم. به طور خاص، ما ابتدا ابرنقطه‌های به‌دست‌آمده از تقسیم‌بندی بیش از حد ابرهای نقطه را معرفی می‌کنیم و سپس ماژول IAG-MLP انباشته شده خود را برای تعبیه یادگیری نمایش سطح ابرنقطه نشان می‌دهیم. در نهایت، با ماژول پیچیدگی مکرر، یک نمودار جهت‌دار جهانی برای به‌روزرسانی مکرر جاسازی‌های ویژگی قبلی ارائه می‌شود.

۳٫۱٫ تولید بیش از حد سوپرپوینت

با توجه به مصرف محاسبات در پردازش میلیون‌ها نقطه در یک صحنه داخلی در مقیاس بزرگ، ابرهای نقطه‌ای به نقاط همگن هندسی و فیزیکی تقسیم می‌شوند، به عنوان مثال، ابرنقاط‌ها را می‌توان به عنوان واحدهای عملیاتی اساسی برای شبکه‌های یادگیری عمیق مشاهده کرد. به این ترتیب، تعداد ابرنقطه‌ها در یک صحنه و تعداد نقاط موجود در یک ابرنقطه از قبل تعریف نمی‌شوند، که حداقل مقدار و حداکثر تکمیل ساختاری بخش‌های ساده را برای یادگیری ویژگی محلی تضمین می‌کند. در این مورد، ما فرض می‌کنیم که نقاط یک ابرنقطه باید ویژگی‌های مشابهی داشته باشند و در نتیجه برچسب کلاس یکسانی را به اشتراک بگذارند. بر اساس تجزیه و تحلیل اجزای اصلی (PCA) [ ۴۹] الگوریتم، ویژگی های شکل محاسبه شده بر روی نمودار مجاورت بهینه K نزدیکترین همسایگی را می توان با ساخت یک ماتریس کوواریانس و تجزیه مقادیر ویژه آن، که مثبت و مرتب هستند، بازیابی کرد، به عنوان مثال، ۰ <λ۱<λ۲<λ۳. سپس، PCA سه جهت اصلی را توصیف می کند که ویژگی های حجمی، مسطح و خطی محله را نشان می دهد.

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪متراس=λ۱λ۳مترپ=λ۲λ۱λ۳مترL=λ۳λ۲λ۳
مترV=۱۳λj[تو۲] |∥∥∥∥۱۳۱۳λj | [تو۲] |∥∥∥∥
ویژگی پراکندگی متراسبه شکل بیضی همسانگرد محله، مسطح بودن اشاره دارد مترپمیانگین فاصله در اطراف مرکز ثقل و خطی بودن را تعریف می کند مترLتشریح می کند که مجاورت چقدر کشیده است. علاوه بر این، عمودی بودن مترVهمچنین می توان برای تشخیص اشیاء در توزیع عمودی مختلف، که در آن تو۱، تو۲، تو۳سه بردار ویژه مرتبط با λ۱، λ۲، λ۳، به ترتیب.

به منظور خوشه‌بندی نقاط همگن با ویژگی‌های مشابه، ویژگی‌های هندسی ذکر شده در بالا و ویژگی‌های فیزیکی مانند رنگ را می‌توان برای مسئله پارتیشن حداقلی تعمیم‌یافته در نظر گرفت، که با تقریب ثابت تکه‌ای تابع انرژی جهانی مورد مطالعه قرار می‌گیرد [ ۲۰ ] :

gارگدقیقهgآر۷ × Vمن ∈ Vgمنfمن۲μ∈ Eδ(gمنgj)
برای هر نقطه من ∈ Vشکل محله محلی آن با ویژگی های ترکیبی مشخص می شود fآر۷ × V، که شامل ۴ ویژگی هندسی و ۳ ویژگی فیزیکی است. اولین بخش از این تابع انرژی، فرمول وفاداری است، که تضمین می کند که بخش های ثابت از gمطابق با مقدار همگن است f. بخش دوم تابع منظم شده است که برای هر یال که دو بخش با مقادیر متفاوت را به هم متصل می کند، یک محدودیت اضافه می کند. علاوه بر این، δ⋅ ≠ ۰ )به براکت آیورسون اشاره دارد و قدرت منظم‌سازی درشتی پارتیشن حاصل و همچنین دانه‌بندی نمودار ابرنقطه، یعنی تعداد کل بخش‌ها را مشخص می‌کند. در واقع، اگرچه مسئله بهینه‌سازی یک تابع غیرمحدب و غیرپیوسته است که نمی‌توان آن را به سادگی حل کرد، ل۰الگوریتم تعقیب برش [ ۵۰ ] می‌تواند از برش‌های نمودار برای تقسیم بازگشتی مجموعه‌های سطح یک راه‌حل کاندید ثابت تکه‌ای استفاده کند. در عمل، همانطور که در شکل ۱ نشان داده شده است ، بخش های استنباط کننده مربوط به ابرنقطه ها به دلیل ویژگی های هندسی و فیزیکی به اندازه ها و اشکال مختلف تقسیم می شوند.

در نهایت، تا زمانی که ابرهای نقطه توسط نمودار ابرنقطه با ابرنقطه‌ها به همراه لبه‌های متصل آنها بازسازی می‌شوند، ویژگی‌های موقعیت مکانی (موقعیت فضایی، موقعیت نرمال شده، ارتفاع)، ویژگی‌های هندسی (پراکندگی، مسطح بودن، خطی بودن، عمودی) را به هم متصل می‌کنیم. و ویژگی های رنگی (مقادیر RGB) سوپرنقاط به عنوان ویژگی های ورودی برای شبکه استخراج ویژگی محلی پیشنهادی ما. به طور خاص، ارتفاع برای تشخیص اجسام در ارتفاعات مختلف نسبت به کف داخلی معرفی شده است که به شرح زیر تعریف می شود:

E=∑ zzحداکثرzدقیقه– ۰٫۵

۳٫۲٫ IAG–MLP

استخراج ویژگی های محلی برای عملیات جمع آوری گرافیک جهانی بعدی بسیار مهم است. با این حال، گرفتن خودکار ویژگی های ساختاری محلی بر اساس منطقه همسایه هنوز چالش برانگیز است. در واقع، بیشتر شبکه‌های پیشرفته کنونی به PointNet ساده و مختصر برای اجرای توابع کانولوشن با تغییر ناپذیری جایگشت نقاط در منطقه محلی متوسل می‌شوند. با این وجود، عملیات جمع‌آوری حداکثری نهایی در PointNet به عنوان مکانیزم «حداکثر توجه» عمل می‌کند که تنها شاخص‌ترین ویژگی‌ها مانند خطوط نقاط در فضای ویژگی را در نظر می‌گیرد و همبستگی‌های ساختاری بین نقاط داخلی باقی‌مانده را نادیده می‌گیرد. با ویژگی یادگیری متفاوت است.

برای مقابله با اطلاعات مهم نادیده گرفته شده در عملیات پیچیدگی محلی ناشی از PointNet، ترانسفورماتور با مکانیزم خودتوجهی که به منطقه با اطلاعات غنی توجه می کند، می تواند به عنوان یک الگوریتم یادگیری ویژگی جدید استفاده شود. ما ابتدا مکانیسم توجه به خود را که توسط معروف ترین ترانسفورماتور وانیلی [ ۱۹ ] اعمال می شود (به شکل ۲ مراجعه کنید ) در زمینه ترجمه ماشینی بررسی می کنیم. با توجه به ویژگی ورودی، توجه به خود به صورت خطی ویژگی ورودی را در یک ماتریس پرس و جو طرح می کند س، یک ماتریس کلیدی کو یک ماتریس مقدار V، که می تواند به صورت زیر فرموله شود:

، K، Vf(سکتیدک–√V

جایی که آماتریس توجهی است که پیوند زوجی را در میان نشانه‌های یک دنباله و به عنوان یک عامل مقیاس‌پذیر نشان می‌دهد، دکبعد ماتریس است ک.

با این حال، هنگامی که برای پردازش ابر نقطه ای اعمال می شود، به دلیل بار محاسباتی بالای آن با محاسبه توجه نقطه-محصول در بین نقاط در هر لایه رمزگذار یا رمزگشا، اجرای مستقیم حالت رمزگذار-رمزگشا انباشته روی ابرهای نقطه عظیم غیرممکن است. علاوه بر این، از آنجایی که بعد بالا برای نمایش بهتر در سطح بالا ضروری است، استفاده جداگانه از یک ترکیب خطی از مقادیر دوتایی به عنوان وزن های خودتوجهی برای بهبود ویژگی های ورودی در هر کانال ویژگی ممکن است مصرف حافظه را در بعد بالا افزایش دهد. بنابراین، با الهام از ترانسفورماتور وانیلی و gMLP [ ۲۱]، ما یک شبکه جدید IAG-MLP را پیشنهاد می‌کنیم که مستقیماً به سوپرنقطه‌ها جهت‌گیری شده است، که می‌تواند به طور خودکار نمایش تعبیه‌شده هر ابرنقطه را با یک معماری دروازه‌ای تعاملی سبک وزن، تحت تأثیر قرار دهد و رمزگذاری کند.
طرح کلی در شکل ۳ نشان داده شده است . با توجه به یک ابرنقطه همراه با ویژگی‌های هر نقطه (به عنوان مثال، RGB خام، مختصات فضایی، مکان عادی، ارتفاع، و ویژگی‌های هندسی ذکر شده در بالا)، این واحد کدگذاری محلی ابتدا نمونه‌برداری می‌کند. ننقاط داخلی و جاسازی آنها از این ویژگی های دست ساز در ویژگی های با ابعاد بالا، به طوری که توجه متقابل را می توان با دو ویژگی تقسیم شده با ابعاد بالا برای یادگیری ساختار محلی پیچیده محاسبه کرد. پس از آن، بلوک IAG پیشنهادی ما تعاملات فضایی با واحد حافظه مشترک را برای توجه موقعیت متقاطع به تصویر می‌کشد و ارتباطات کانال را در عملیات دروازه برای توجه بین کانالی گسترش می‌دهد. در عمل، بر خلاف مکانیسم توجه به خود، که پیچیدگی محاسباتی بالایی دارد ای (n2د)مکانیسم توجه متقاطع امکان تبدیل فضایی قابل یادگیری با پیچیدگی محاسباتی کمتر را می دهد ای (n2د۲)، جایی که nتعداد نقاط منطقه ای و دابعاد ویژگی ورودی را نشان می دهد.
به طور خاص، این بلوک IAG شامل مراحل زیر است:
(۱)

عملیات انقباضی. برای فعال کردن تعامل متقابل کانال، لازم است یک عملیات انقباض در کل بعد ویژگی وجود داشته باشد. روش مختصر با اعمال یک طرح ریزی خطی همراه با یک تابع عادی سازی قدامی و یک تابع فعال سازی خلفی است که می تواند به صورت زیر فرموله شود:

fدبلیو، بXσWXب )

که در آن ویژگی ورودی ایکسبه روش دسته ای نرمال می شود [ ۵۱ ]، که برای همگرایی یادگیری ضروری است. سپس یک طرح خطی با ضرب ماتریس اجرا می شود دبلیوآر۲ د× ۲ روزکه برای آن اندازه از ۲ دابعاد ویژگی پیش بینی شده است. علاوه بر این، بو σبه یک بایاس مراجعه کنید که می تواند یک ماتریس یا اسکالر و یک تابع فعال سازی مانند EU[ ۵۲ ].

برای محاسبه توجه متقاطع بین ابعاد کانال به طور موثر، تقسیم کردیم fدبلیو، بX)به دو جزء مستقل، f1X)و f2X)، در امتداد کانال ویژگی و برهمکنش فضایی مبتنی بر عنصر پیاده سازی شده است که به عنوان تابع دروازه شناخته می شود و نشان داده شده است که در واحدهای خطی دروازه ای (GLUs) امکان پذیر است [ ۵۳ ، ۵۴ ]. در واقع، ما توجه موقعیت متقاطع و توجه متقابل کانال را در آن پیاده سازی می کنیم f1X)و f2X)به ترتیب، و آنها را در تابع دروازه جمع کنید تا مشکل گرادیان ناپدید شدن را کاهش دهید. توجه داشته باشید، ما از ساختار چند سر برای محاسبه توجه استفاده نمی‌کنیم زیرا بعد ابرهای نقطه در مقایسه با بعد توالی‌های متن بسیار کوچک است، و غیرضروری است که ویژگی‌ها را در شبکه تعبیه محلی برای یادگیری عمیق در سطح ابرنقطه تقسیم کنیم. .
(۲)

موقعیت متقاطع توجه. توجه به خود معمولاً به عنوان یک الگوریتم طرح ریزی خطی در نظر گرفته می شود که از ارزش های خود نمونه های داده برای بهبود ویژگی های خود استفاده می کند، اما این ن× Nماتریس توجه به خود فقط می تواند رابطه متقابل بین نقاط در مجموعه داده آموزشی مشابه را توضیح دهد و مشخص نیست که آیا همبستگی خاصی بین نمونه داده ها در یک صحنه وجود دارد یا خیر. علاوه بر این، با وجود مقدار کمی از پارامترهای درگیر در ماژول توجه به خود، محاسبه توجه زوجی را نمی توان نادیده گرفت. بنابراین، ما یک واحد توجه تعاملی فضایی، با الهام از شبکه توجه خارجی [ ۵۵ ] طراحی کردیم]، برای محاسبه توجه موقعیت متقاطع بین ویژگی های با ابعاد بالا و یک واحد حافظه خارجی، که مستقل از ویژگی ورودی است و اطلاعات را در کل مجموعه داده آموزشی به اشتراک می گذارد. به طور خاص، ما واحد تعامل فضایی را با ساختار الگوی لایه خودتوجهی ترانسفورماتور وانیلی می‌سازیم و در ابتدا آن را به روشی مشابه PCT [ ۳۸ ] با روش نرمال‌سازی مضاعف عادی می‌کنیم، که به طور تجربی پایداری شبکه‌های تعبیه‌شده محلی را بهبود می‌بخشد. .

ایکسمن ، جf(ایکسمن ، ج=انقضا (ایکسمن ، ج)nانقضا (ایکسمن ، ج)
ایکسمن ، ج=ایکسمن ، جnایکسمن ، ج

سپس با توجه به ساختار ترانسفورماتور وانیلی، واحد حافظه خارجی مyآرن× Nخدمت بر روی ماتریس کلید کمی تواند به تدریج اطلاعات متنی را در بین نقاط منطقه ای در عملیات ضرب ماتریس ثبت کند با ضرب در دو نرمال شده f1(ایکس۱آرن× dبا اشاره به ماتریس پرس و جو س.

افنیا من _f1X⊗ مکهyتی
(۳)

توجه بین کانالی برخلاف وزن‌های خودتوجهی که از توجه زوجی در بین نقاط به دست می‌آیند، واحد توجه متقابل کانالی را می‌توان به عنوان مکانیزم توجه متقابل برای تعدیل نمایش نقطه‌ای با استفاده از سیگنال فضایی مشاهده کرد. به طور خاص، نقشه توجه متقابل کانال از تولید نقطه استنباط می شود f2X)و ماتریس وزن توجه موقعیت متقاطع اف:

Ff2X)
را نشان دهنده ضرب عنصر است که به سرعت بزرگی هر عنصر را تنظیم می کند ایکسبه صورت جفتی ویژگی در واقع، این یک مکانیسم دروازه‌ای است، یعنی عملکرد محصول نقطه‌ای خروجی لایه کانولوشن بدون تبدیل غیرخطی و خروجی لایه کانولوشن با تبدیل غیرخطی در واحد IAG-MLP ما، اما هم موقعیت متقاطع و هم کانال متقاطع. توجه در این مکانیسم دروازه ای در واحد IAG-MLP ما محاسبه و ترکیب می شود.
علاوه بر این، برای به کارگیری یک ارتباط باقیمانده بین ویژگی ورودی و نقشه توجه، نقشه توجه را به یک ۲ دابعاد و آن را به ویژگی ورودی اضافه کنید.
(۴)
بلوک اتصال باقیمانده از نظر تئوری، یک شبکه یادگیری عمیق با متغیرهای بیشتر باید بهتر بتواند وظایف چالش برانگیز را انجام دهد، اما ثابت شده است که عمیق کردن لایه ها، آموزش شبکه را سخت تر می کند، که به آن مشکل انحطاط می گویند. از این رو، با توجه به مشکل انحطاط یک شبکه یادگیری عمیق با افزایش لایه ها به عنوان ماژول های IAG-MLP بیشتر، بلوک اتصال باقیمانده برای ایجاد یک میانبر مختصر ارائه می شود که در آن ورودی پیش بینی شده در بلوک IAG قرار می گیرد و از چندین لایه عبور می کند. تا در نهایت با نقشه توجه پیش بینی شده ادغام شود.
با توجه به نیاز به نمایش ویژگی محلی، عملیات حداکثر ادغام برای تشکیل یک بردار ویژگی برای جمع‌آوری ویژگی نسبتاً جهانی یک ابر نقطه از نقاط نمونه‌برداری شده انجام می‌شود. در نهایت، ما ویژگی‌های ورودی را بر اساس بعد فضایی به‌جای بعد کانال به‌روزرسانی می‌کنیم، فقط با چندین لایه MLP ساده برای بیان ویژگی ابعاد بالاتر و بلوک‌های IAG انباشته برای سیگنال ویژگی پیشرفته.

۳٫۳٫ شبکه کانولوشن گراف توجه تعاملی (IAGC)

برای یک صحنه داخلی در مقیاس بزرگ، روابط توپولوژیکی فضایی بین انواع مختلف اشیاء می‌تواند به عنوان اطلاعات زمینه‌ای در سطح شی مورد استفاده قرار گیرد تا نمایش تعبیه‌شده را در سطح جهانی بهبود بخشد. به منظور بهبود عملکرد بخش‌بندی معنایی با تجمیع زمینه‌سازی در سطح بخش، پیچیدگی نمودار از پیچیدگی شرط لبه (ECC) [ ۵۶ ] مشتق شده است.] ویژگی‌های تعبیه‌شده در سطح ابرنقطه و اطلاعات متنی را در نمودار سراسری برای به‌روزرسانی تدریجی استنتاج تقسیم‌بندی معنایی ترکیب می‌کند. از این رو، در این کار، ما یک شبکه تقسیم‌بندی معنایی مبتنی بر ابرنقطه پایان به انتها پیشنهاد می‌کنیم که ابتدا نقاط همگن هندسی و فیزیکی را به‌عنوان نمایش‌های میانی و همچنین ابرنقطه‌هایی برای استخراج ویژگی‌های محلی در شبکه محلی IAG-MLP خوشه‌بندی می‌کند و سپس آن را می‌سازد. نمودار جهانی SuperPoint (SPG) برای به روز رسانی سلسله مراتبی و جهانی نمایش های تعبیه شده با لبه های متصل.
به طور خاص، برای توضیح بیشتر کل معماری IAGC پیشنهادی ما، شکل ۴ استنتاج تقسیم بندی معنایی از یک صحنه ابر نقطه خام به نمودار مبتنی بر ابرنقطه را نشان می دهد. V، ای)، جایی که Vمجموعه فوق نقطه و را نشان می دهد Eمجموعه لبه های نسبت داده شده جهت دار است. هنگامی که ویژگی محلی در ابرنقطه جاسازی می شود، ECC به طور مکرر عملیات پیچیدگی را روی هر ابرنقطه بدون پردازش در کل ساختار نمودار انجام می دهد.

به عنوان مثال، برای یک نقطه فوق العاده Vمنو ابر نقطه متصل آن Vj، فرض کن که Ejمنلبه متصل بین ابرنقاط است منو jبا ویژگی های جهت دار در رابطه با نسبت ویژگی های هندسی، نسبت تعداد نقاط، و روابط فضایی مرکزها. پس از آن، اطلاعات متنی کلی هر راس در SPG را می توان با تابع تجمع میانگین زیر به عنوان یک پیام جهانی فرموله کرد:

=۱|نj|نj(دبلیوjمنهjمنvj

جایی که دبلیوبه پارامترهای ایجاد شده به صورت پویا از شبکه فیلتر پویا اشاره دارد [ ۵۷ ]، که در اصل یک لایه MLP بدون بایاس است، به طوری که بعد ویژگی ویژگی های لبه با بعد ویژگی تعبیه نقطه فوق العاده یکسان است. v، که ضرب عنصر را تسهیل می کند ⋅ ). علاوه بر این، ۱نjسهم سایر نقاط ابرنقطه را در گراف جهانی متصل به ابرنقطه عادی و میانگین می کند.

در مرحله بعد، با توجه به قابلیت مدیریت ورودی متوالی برای پردازش اطلاعات متنی، GRU، که دارای پارامترهای کمتری است اما به اندازه LSTM موثر است، برای ساخت و به‌روزرسانی مکرر یک حالت پنهان که توسط نمایش تعبیه شده و پیام متنی جهانی یکپارچه شده است، استفاده می‌شود. در امتداد لبه های متصل پخش می شود. در این حالت حالت پنهان را تعریف می کنیم ساعتمنهمانطور که با جاسازی مقداردهی اولیه شد vمنو تجمیع جهانی بین پیش بینی شده را انجام دهید ساعتو پیام جهانی متربا ضرب عنصر:

ساعت۰من_ایکستیمنσ(دبلیوgساعتتیمن+بg) ⊙مترتیمن

با توجه به مکانیزم گیتینگ در ماژول GRU، ابتدا ورودی جریان را به صورت خطی طرح ریزی می کنیم ایکستیمنو حالت پنهان قبلی ساعت– ۱منبه یک جاسازی با ابعاد بالاتر ایکس¯تیمنو حالت پنهان ساعت¯– ۱منکه در تیtتکرارها

ایکس¯تیمن=دبلیوایکسایکستیمن+بایکس،ساعت¯– ۱من=دبلیوساعتساعت– ۱من+بساعت

همانطور که در شکل ۵ نشان داده شده است ، ایکس¯تیمنو ساعت– ۱منبا جمع بردار به هم متصل می شوند و به یک تابع سیگموئید منتقل می شوند تا مقادیر خود را بین ۰ و ۱ قرار دهند، جایی که ۰ به معنای ویژگی های نامربوط برای دور ریختن و ۱ به معنای ویژگی های مفید برای حفظ است. بنابراین، این عملیات فیلتر کردن به گیت به روز رسانی کمک می کند تومنو گیت را ریست کنید rمن.

توتیمنσ(ایکس¯تیمن+ساعت¯– ۱من،rتیمنσ(ایکس¯تیمن+ساعت¯– ۱من)

جایی که توتیمنویژگی های نامربوط را دور می اندازد و اطلاعات جدید را اضافه می کند و rتیمنتصمیم گرفت چه مقدار از ویژگی های گذشته را در عملیات بعدی فراموش کند. سپس، یک کاندیدای دولت پنهان جدید ساعت⃗ تیمنبرای تأکید بر ابعاد شدیداً همبسته و نادیده گرفتن ابعاد همبسته ضعیف با استفاده از تابع tanh برای تنظیم مقادیر به هم پیوسته ساخته شده است. rتیمن، ساعت¯– ۱من، و ایکس¯تیمنبین -۱ و ۱٫

ساعت⃗ تیمنتنه (rتیمنساعت¯– ۱من+ایکس¯تیمن)

پس از آن، به روز رسانی حالت پنهان ساعتتیمنبرای تکرار فعلی را می توان با دو جزء به شرح زیر ساخت:

ساعتتیمن۱ توتیمن) ⊙ساعت⃗ تیمن+توتیمنساعت¯– ۱من

جایی که ۱- _توتیمن) ⊙ساعت⃗ تیمنجریان اطلاعات وضعیت پنهان فعلی را تعیین می کند ساعتتیمن، و توتیمنساعت¯– ۱منقبلی را تعیین می کند ساعت¯– ۱مناز طریق گیت آپدیت توتیمن. در نهایت، زمینه سازی جهانی در ویژگی های ابعادی بالا که با توالی های طولانی حالت های پنهان به هم پیوسته اند، گنجانده می شود.

yدبلیو(ساعت۰من،ساعت۱من⋅ ⋅ ساعتتیمن)

۴٫ آزمایشات

در این بخش ابتدا جزئیات تنظیمات آزمایشی را معرفی می کنیم. ثانیا، ما مطالعات فرسایشی را برای تأیید کارایی اجزای جداگانه IAGC پیشنهادی خود در سه مجموعه داده داخلی سه بعدی، از جمله مجموعه داده SceneNN، مجموعه داده فضای داخلی سه بعدی مقیاس بزرگ استنفورد (S3DIS) و مجموعه داده ScanNet (V2) انجام می‌دهیم. در نهایت، ما شبکه خود را با چندین شبکه پیشرفته مقایسه می کنیم و در نهایت به ارزیابی کمی و کیفی عملکرد آنها می پردازیم.

۴٫۱٫ مجموعه داده ها

  • S3DIS [ ۵۸ ]
مجموعه داده S3DIS در ۶ منطقه داخلی در مقیاس بزرگ که از ۳ ساختمان اداری مختلف سرچشمه می گیرد، جمع آوری شده است که بیش از ۶۰۰۰ متر مربع با ۲۷۱ اتاق را پوشش می دهد. هر نقطه با ویژگی های هندسی و فیزیکی مانند مختصات فضایی XYZ و ویژگی های RGB در ۱۳ کلاس معنایی طبقه بندی می شود. با توجه به استقرار و پیکربندی مجموعه داده، اکثر روش‌های پیشرفته مدل‌های خود را در منطقه ۵ آزمایش می‌کنند، زیرا از یک ساختمان متفاوت می‌آیند، اما عموماً عملکرد ضعیفی در چندین دسته از جمله تیر، ستون و تخته نشان می‌دهند. ویژگی ها با اشیاء مربوطه در مناطق دیگر متفاوت است. از این رو، به منظور تأیید جامع مدل خود، نتایج Area-4 برابر و نتایج ۶ برابر اعتبار متقاطع را ارائه می دهیم.
۲٫
ScanNet (V2) [ ۵۹ ]
ScanNet شامل ۱۶۱۳ صحنه داخلی است که از بازسازی RGB-D مشتق شده است، و نقاط آن در ۲۰ کلاس حاشیه نویسی شده است، که در آن ۱۵۱۳ صحنه به ترتیب برای آموزش و اعتبارسنجی به ۱۲۰۱ و ۳۱۲ تقسیم می شوند و ۱۰۰ صحنه باقی مانده بدون برچسب به عنوان آزمایش مشاهده می شوند. مجموعه داده‌های ارائه شده در رقابت چالشی معیار باز برای تأیید. و با این حال، ما مجموعه داده اعتبار سنجی را به دو مجموعه داده برای اعتبارسنجی و آزمایش در یک مطالعه فرسایشی برای بررسی وکسل سازی بهینه ابرهای نقطه خام و تعداد مناسب ابرنقاط برای تجمع نمودار تقسیم کردیم.
۳٫
SceneNN [ ۶۰ ]
مجموعه داده SceneNN یک مجموعه داده مش صحنه متشکل از ۷۶ اتاق داخلی برای تقسیم بندی معنایی و نمونه است. به طور خاص، برچسب‌گذاری معنایی آنها با NYU-D v2 مطابقت دارد [ ۶۱استاندارد دسته بندی با ۴۰ کلاس معنایی که از ساختارهای ساختمانی مانند دیوارها، کف و سقف تا مبلمان مختلف را شامل می شود، اما تقریباً ۸ دسته به ندرت به نقاط متصل می شوند که ذاتاً بر عملکرد کلی کل دسته ها تأثیر می گذارد. با این حال، تنوع طبقات معنایی می تواند تعمیم مدل ما را تأیید کند. بنابراین، در کار خود، آن‌ها را در آزمایش‌های فرسایشی خود به کار می‌بریم تا هم اثربخشی و هم تعمیم مدل‌هایمان را با تقسیم کردن آنها به سه ناحیه بررسی کنیم، که تقریباً از تقسیم اتاق ۵۱/۱۵/۱۰ برای آموزش، اعتبارسنجی و آزمایش پیروی می‌کند.

۴٫۲٫ جزئیات پیاده سازی

تمام آزمایشات طراحی شده با Pytorch روی یک سرور با کارایی بالا مجهز به پردازنده گرافیکی ۱۲ گیگابایتی NVIDIA Tesla K80 پیاده سازی شده است. از آنجایی که هدف مدل IAGC طراحی شده ما، تقسیم معنایی در ساختمان سناریوهای داخلی با نقاط سه بعدی عظیم است، به منظور سرعت بخشیدن به راندمان محاسبات و بهبود عملکرد بخش‌بندی در طول فرآیند آموزش، ابرهای نقطه‌ای را با فاصله ۰٫۰۳ متر برای S3DIS و SceneNN پیش پردازش می‌کنیم. و به خصوص ۰٫۰۲ متر برای ScanNet به دلیل محیط پیچیده و اجسام مختلف. علاوه بر این، برای هر ابرنقطه، ۱۲۸ نقطه برای یادگیری توزیع فضایی در یک شبکه محلی زیرنمونه‌برداری می‌شود و حداکثر ۵۱۲ ابرنقطه به‌طور تصادفی برای تکرارهای زمینه‌سازی جهانی در پیچیدگی‌های نمودار انتخاب می‌شوند. ما در طول فرآیند آموزش از بهینه ساز ADAM با نرخ اولیه ۰ استفاده می کنیم. ۰۱ و نرخ پوسیدگی ۰٫۷٫ همچنین، از آنجایی که کل نمودار ابرنقطه یک صحنه را در یک زمان آموزش می‌دهیم، اندازه دسته‌ای به ترتیب برای S3DIS، SceneNN و ScanNet به ۲ کاهش می‌یابد. علاوه بر این، معیارهای ارزیابی مانند میانگین کلاس تقاطع بیش از اتحاد (mIoU)، دقت متوسط ​​کلاس (mAcc) و دقت کلی (OA) به صورت متناسب بیان می‌شوند و برای ارزیابی کمی نتایج تقسیم‌بندی استفاده می‌شوند.
در این مورد، ما از ابرنقطه های از پیش پردازش شده به عنوان واحد پایه خود برای یادگیری عمیق استفاده می کنیم، به طوری که نقاط مشابه هندسی و فیزیکی متعلق به یک دسته را می توان در یک ابر نقطه دسته بندی کرد، که یادگیری تعبیه شده را با نقاط همگن تر تقویت می کند. به طور خاص، ما روش IAGC خود را با معماری نشان داده شده در شکل ۶ می سازیم .

۴٫۳٫ مطالعات و تجزیه و تحلیل فرسایش

ما چندین مطالعه فرسایشی انجام دادیم تا کارایی شبکه پیشنهادی خود را با جایگزینی شبکه جاسازی محلی و کار انباشتگی جهانی با همتایان شبکه‌های پیشرفته فعلی و تنظیم مقدار بلوک‌های IAG روی هم در شبکه IAG-MLP انجام دهیم. . علاوه بر این، ما دانه بندی نمودار ابرنقطه را با پیش پردازش ابرهای نقطه در فواصل مختلف نمونه برداری و از پیش تعریف کردن حداکثر تعداد ابرنقطه برای پیچیدگی نمودار تنظیم کردیم تا ساختار گرافیکی بهینه برای یادگیری عمیق را بررسی کنیم.

۴٫۳٫۱٫ تست Ablation تابع جاسازی محلی

برای نشان دادن اثربخشی شبکه استخراج ویژگی محلی خود، ما مدل ها را با چیدن ۱، ۲، ۳، ۴، ۵ بلوک IAG در IAG-MLP، یعنی ۱-IAG-MLP، ۲-IAG-MLP، ۳-IAG- آموزش دادیم. MLP، ۴-IAG-MLP، و ۵-IAG-MLP. سپس عملکرد آنها را با دو شبکه مختلف مقایسه کردیم، از جمله شبکه کانولوشن رایج PointNet و شبکه سنتی وانیلی خود توجه.
علاوه بر این، PointNet را به یک معماری سبک وزن که در SPG [ ۱۶ ] اتخاذ شده است، تنظیم کردیم، که از یک شبکه ترانسفورماتور (یعنی T-Net، که کاملاً با شبکه ترانسفورماتور وانیلی متفاوت است)، چندین MLP متوالی با ۲۵۶ نهایی تشکیل شده است. ویژگی ابعاد، و یک لایه حداکثر استخر نهایی با بردار ویژگی ۳۲ بعدی. در شبکه وانیلی ترانسفورماتور، به جای افزودن آنها به ویژگی های ورودی، از رمزگذاری های موقعیت به هم پیوسته با سایر ویژگی های هندسی استفاده کردیم.
بر اساس نتایج عددی مربوطه در جدول ۱(پانل سمت چپ)، می بینیم که اگرچه پوینت نت بهترین OA را با ۶۴٫۱۳ درصد به دست آورد، اما کمترین IoU را در مقایسه با سایر شبکه ها از نظر بلوک های تعبیه محلی ارائه می دهد. از نظر تئوری، اشیاء بزرگ مانند دیوارها یا کف معمولاً بخش زیادی از فضای داخلی ساختمان را به خود اختصاص می دهند، و متریک OA عموماً توسط اجسام بزرگ، حاوی مقادیر زیادی از نقاط، تسلط دارد، در حالی که mIoU ارتباط نزدیکی با همه دسته ها دارد. در نتیجه، می‌توان نتیجه گرفت که شبکه‌های مبتنی بر توجه دوگانه نسبت به PointNet نسبت به اهداف کوچک حساس‌تر هستند، زیرا اکثر شبکه‌های IAG-MLP انباشته شده عملکرد بهتری نسبت به دو روش دیگر در mIoU نشان می‌دهند، که نشان‌دهنده توانایی بهتر برای تشخیص چندین کلاس است، به ویژه مناسب برای محیط های داخلی با ساختارهای پیچیده معماری و تجهیزات متمایز. به طور مشخص،شکل ۷ a منحنی های معیارهای تقسیم بندی معنایی را در شبکه های IAG-MLP انباشته شده مختلف نشان می دهد، و نشان می دهد که با افزایش بلوک IAG پشته ای، IAG-MLP با بلوک های IAG کمتر باعث عدم تناسب می شود در حالی که IAG-MLP با بلوک های IAG بیشتر، بیش از حد برازش را نشان می دهد. که به عملکرد بهینه ۲-IAG-MLP نسبت به سایر شبکه ها در mIoU کمک می کند. از سوی دیگر، ترانسفورماتور سنتی وانیلی عملکرد ضعیفی نسبت به IAG-MLP های انباشته در هر دو OA و mIoU داشت، زیرا توجه متقابل به کار رفته در IAG-MLP روابط سطح بالایی را در کانال های غیر از توجه به خود جلب می کند.
با توجه به پیچیدگی محاسباتی، ما از Gflop برای اندازه گیری تعداد عملیات ممیز شناور ۱ میلیارد بار در ثانیه در طول فرآیند آموزش استفاده کردیم. می‌بینیم که اگرچه مدل PointNet بیشترین تعداد پارامتر را در مقایسه با شبکه‌های Transformer و ۲-IAG-MLP دارد، اما کمترین پیچیدگی محاسباتی را دارد زیرا محاسبه وزن توجه در شبکه مبتنی بر توجه پیچیده‌تر از عملیات کانولوشنی در شبکه است. PointNet.
۴٫۳٫۲٫ آزمون فرسایشی تابع تجمع جهانی
به منظور تایید اثربخشی مکانیسم راه‌اندازی RNN در بلوک تجمع جهانی، ما ابتدا سه شبکه استخراج ویژگی منطقه‌ای که در بالا ذکر شد در GRU [ ۲۳ ] برای کانولوشن گراف ادغام کردیم. از هر دو صفحه سمت راست بالای جدول ۱ قابل مشاهده استکه تمام شبکه‌های محلی ادغام شده با GRU برای تجمیع جهانی بهبود عملکرد را به دست آوردند، و به ویژه، ۲-IAG-MLP ادغام شده با GRU، یعنی ۲-IAG-MLP + GRU، بهترین عملکرد mIoU و OA را با ۱۶٫۰۵٪ به دست آورد. و ۷۳٫۰۳ درصد. اگرچه Transformer + GRU بهبود قابل توجهی در mAcc ارائه می دهد، عملکرد ضعیف آن در mIoU آن را بدترین در OA می کند، که نشان دهنده عملکرد بخش بندی عالی آن در دسته های خاص است اما نه همه دسته ها.
ثانیا، ما ماژول RNN ساده شده، یعنی GRU، را با ماژول RNN پیچیده تر، یعنی LSTM مقایسه کردیم تا شبکه نموداری بهینه برای استراتژی تجمیع جهانی را بررسی کنیم. همانطور که می بینیم، اگرچه LSTM به طور عالی با سه گیت برای به روز رسانی حالت پنهان ساخته شده است، ۲-IAG-MLP + GRU با دو گیت به بهبودی بالاتر از ۲-IAG-MLP + LSTM با ۳٫۱۹٪ و ۲٫۴۴٪ در OA و mIoU دست یافت. . ما همچنین IAG-MLP خود را با سایر استراتژی‌های گرافیکی مانند شبکه توجه نمودار (GAT) ترکیب کردیم [ ۶۲]. همانطور که مشاهده می‌شود، در GAT اصلی، الحاق ویژگی‌های تعبیه‌شده به صورت زوجی مورد استفاده در محاسبه وزن‌های توجهی، منجر به هزینه محاسباتی هنگفتی می‌شود و در نتیجه، برای کارایی بالا، آنها را با لبه‌های نسبت داده شده در ECC جایگزین کردیم. می بینیم که ۲-IAG-MLP + GAT حتی بدتر از ۲-IAG-MLP عمل می کند، عمدتاً به این دلیل که تخصیص بی رویه وزن توجه سراسری سایر ابرنقطه ها به هر ابرنقطه در نمودار ابرنقطه ممکن است نمایش ویژگی را مختل کند، که این امر ضرورت مکانیسم دروازه در LSTM و GRU برای حذف مکرر و انتخابی اطلاعات نامربوط و جذب اطلاعات مهم در طول توالی طولانی.
علاوه بر این، ما چهار شبکه با بهترین عملکرد را در بلوک تجمع جهانی برای آموزش در مجموعه داده S3DIS انتخاب کردیم تا تعمیم شبکه خود را ثابت کنیم. فرآیندهای آموزشی خاص Area 4-fold در شکل ۷ نشان داده شده است، که از آن می توانیم نشان دهیم که روش های مبتنی بر IAG-MLP بهترین تناسب را با توزیع داده ها دارند، جایی که آنها کمی بهتر از PointNet + GRU در ۲۵۰ دوره اول عمل می کنند و ادامه می دهند. به طور پیوسته رشد کند در حالی که PointNet + GRU یک روند نزولی بزرگ در ۱۰۰ دوره گذشته نشان می دهد. علاوه بر این، نتایج آزمایش در منطقه ۴ در جدول ۲(پانل سمت چپ) نشان می دهد که با افزایش مجموعه داده های آموزشی، شکاف بین IAGC ما و سه شبکه دیگر به طور قابل توجهی گسترده تر است، جایی که ۲-IAG-MLP + GRU بهترین عملکرد را در تمام معیارها دارد، به خصوص بیش از ۱۰٫۷٪ و ۱۳٫۳٫ درصد بالاتر از سه مدل دیگر در mIoU و mAcc بود. علاوه بر این، نتایج اعتبارسنجی متقابل ۶ برابری نیز در جدول ۲ (پانل پایین سمت راست) ارائه شده است تا ثابت کند که روش پیشنهادی مبتنی بر IAG-MLP ما می‌تواند به دقت رقابتی با روش‌های مبتنی بر MLP دست یابد و حتی از آنها بهتر عمل کند.
۴٫۳٫۳٫ تست ابلیشن دانه بندی گراف ابرنقطه ای
با توجه به بار محاسباتی عظیم ماژول تجمع گراف با GRU برای سوپرنقاط، لازم است تعداد بهینه ابرنقطه ها و ساختار گرافیکی بهینه برای پیاده سازی ماژول GRU بررسی شود. بنابراین، ما تأثیر دانه‌بندی نمودار ابرنقطه را بر نتایج تقسیم‌بندی معنایی در مجموعه داده ScanNet با پیاده‌سازی ۲-IAG-MLP در اندازه‌های مختلف نمونه‌برداری فرعی، دانه‌بندی‌های پارتیشن‌بندی و حداکثر تعداد ابرنقطه‌ها برای انباشتگی جهانی تحلیل کردیم. مجموعه داده Scannet برای آموزش، اعتبارسنجی و آزمایش به صحنه های ۱۲۰۱/۱۵۶/۱۵۶ تقسیم شد. به طور خاص، ما روی ابرهای نقطه‌ای برچسب‌گذاری شده برای ۵۰ دوره در عرض‌های وکسل‌سازی مختلف، نقاط قوت منظم‌سازی و حداکثر ابرنقطه‌ها (مشخص شده به عنوان v، μ، و max p)، جایی که vبازه نمونه برداری فرعی و تعداد نقاط هر ابرنقطه را تعیین می کند و μ، که در تابع انرژی جهانی در معادله (۳) نقل شده است، بر تعداد ابرنقطه ها در هر نمودار ابرنقطه غالب است و max pحداکثر تعداد سوپرنقطه را برای عملیات جمع آوری جهانی توصیف می کند. به عنوان مثال، شکل ۸ رویه‌های پیش پردازش ابرهای نقطه‌ای را در محاسبه ویژگی‌های هندسی، پارتیشن‌بندی مبتنی بر هندسه و رنگ، و مراحل ساخت نمودار سراسری نشان می‌دهد، که ساختار داده را از ابرهای نقطه‌ای بی‌نظم اولیه تا نمودارهای ابرنقطه نهایی سازمان‌دهی مجدد می‌کند. باید توجه داشته باشیم که ویژگی های هندسی مانند پراکندگی، مسطح بودن و خطی بودن به ترتیب به رنگ های قرمز، سبز و آبی نسبت داده می شود. ابرنقطه ها به طور تصادفی رنگ می شوند و خطوط خاکستری لبه های نسبت داده شده در نمودارهای ابرنقطه را نشان می دهند.
از سوی دیگر، همانطور که در جدول ۳ نشان داده شده است ، با افزایش فاصله وکسل سازی، تقسیم بندی با v0.03 = در مقایسه با نتایج متناظر با آنها کاهش یافته است v= 0.02، که ممکن است زمینه ساز این واقعیت باشد که نمونه برداری بیش از حد ممکن است منجر به نقاط ناکافی در سوپرنقطه برای یادگیری تعبیه محلی شود. علاوه بر این، پارتیشن بندی با بزرگتر μاندازه ابرنقطه‌ها را افزایش داد و به اشتباه نقاطی را با ویژگی‌های مشابه اما برچسب‌های متفاوت در یک ابرنقطه خوشه‌بندی کرد که منجر به استنباط تقسیم‌بندی نادرست معمولاً در لبه مجاور دو شی از دسته‌های مختلف می‌شود.
علاوه بر این، به منظور متعادل کردن هزینه راندمان محاسباتی و دقت تقسیم‌بندی، عملکرد تجمع جهانی را با توجه به حداکثر تعداد ابرنقطه‌ها بررسی کردیم. لازم به ذکر است که ابرهای نقطه خام پارتیشن بندی شده با μ> 0.05 معمولاً از کمتر از ۵۱۲ ابرنقطه تشکیل شده است، و در نتیجه، ما فقط حداکثر ۱۰۲۴ ابرنقطه را برای تجمع جهانی در { v= 0.02، μ= ۰٫۰۳}، { v= 0.02، μ= ۰٫۰۵} و { v= 0.03، μ= ۰٫۰۳} و حداکثر ۵۱۲ ابرنقطه برای سایر آزمایشات مقایسه ای.
قابل توجه، در مقایسه با آزمایشات با W، کسانی که با max p= 512 به نتایج بخش بندی بهتری دست یافتند زیرا ابرنقاط بیش از حد شرکت کننده در به روز رسانی اطلاعات متنی جهانی منجر به توانایی ضعیف در بازیابی معتبر اطلاعات موجود در طول تکرارهای محدود شد. همانطور که در شکل ۹ مشاهده می شود ، ما نتایج تقسیم بندی معنایی را در مجموعه داده ScanNet مشاهده می کنیم، که در حداکثر تعداد مختلف ابرنقطه با max p= 512 و max p= 1024، به ترتیب. در نتیجه، آزمایش با { v= 0.02، μ= ۰٫۰۳، max p= 512} در تمام معیارها بهترین ها را به دست آورد، و ما از نتایج تقسیم بندی آن برای مقایسه با چندین روش پیشرفته در ScanNet در آزمایش های زیر استفاده کردیم.

۴٫۴٫ نتایج تقسیم بندی

در این بخش، IAGC پیشنهادی خود را با چندین روش پیشرفته فعلی مقایسه کردیم تا عملکرد بخش‌بندی شبکه خود را در دو معیار باز متفاوت، یعنی S3DIS و ScanNet بررسی و ارزیابی کنیم.

۴٫۴٫۱٫ نتایج مربوط به مجموعه داده S3DIS

با توجه به مجموعه داده S3DIS، ما آنها را با همان نقاط زیر نمونه (۰٫۰۳ متر) با توجه به ابرهای نقطه خام متراکم و عظیم آن آموزش دادیم. ما یک اعتبارسنجی متقابل ۶ برابری را در سراسر مناطق به جای ساختمانها انجام دادیم تا توانایی IAGC خود را برای تشخیص چندین کلاس ثابت کنیم. معیارهای ارزیابی نتایج میانگین miro میانگین mioU و میانگین دقت کلی بیش از ۱۳ کلاس در ابرهای نقطه خام است.
ما IAGC خود را با چندین روش تقسیم‌بندی معنایی ابر نقطه‌ای پیشرفته، از جمله PointNet [ ۱۳ ]، PointNet++ [ ۱۴ ]، SPG [ ۱۶ ] و GAC [ ۱۸ ] مقایسه کردیم. نکته قابل توجه، PointNet و GAC به ترتیب تنها شبکه‌های محلی را با MLP و انحراف توجه گراف اجرا کردند، در حالی که هر دو PointNet++ و SPG تجمیع جهانی را با تعبیه‌های محلی مشتق شده از PointNet پیاده‌سازی کردند. به عنوان جدول ۴نشان می دهد، mIoU IAGC در مقایسه با PointNet و GAC حداقل ۱۷٫۹٪ بالاتر بود، که به تعامل نمودار بین ابرنقاط نسبت داده می شود. به همین ترتیب، در مقایسه با دو شبکه جهانی دیگر، mIoU به طور قابل توجهی افزایش یافته است، به ویژه در اشیاء با ساختار پیچیده مانند تیرها، قفسه‌ها و مبل‌ها، در IAGC با حداقل ۱۲٫۳٪، ۷٫۲٪ و ۱۱٫۴٪ بهبود مشاهده می شود. با این حال، mIoU دسته برد ۲۰٫۹٪ و سپس ۳۰٫۹٪ کمتر از بهترین عملکرد PointNet است. این شکاف عملکرد بزرگ در دسته تخته احتمالاً از سازماندهی داده های اولیه ابرهای نقطه ناشی می شود زیرا PointNet در شبکه های وکسل سه بعدی معمولی تقسیم بر توزیع فضایی پیاده سازی می شود.
ما در ادامه نمونه‌های تجسم سه صحنه را در مدل‌های مختلف ارائه کردیم. همانطور که در شکل ۱۰ مشاهده می شود ، IAGC پیشنهادی ما می تواند با دقت بیشتری در تمام سازه های ساختمانی و اکثر مبلمان پیش بینی کند، و لبه های تقسیم بندی متمایز را بین دسته های مختلف نشان می دهد، در حالی که PointNet و PointNet++ اشکال نامنظمی از اشیاء قطعه بندی شده و نقاط به اشتباه تقسیم شده را در توزیع های گسسته ارائه می دهند، که نتیجه می شود. در لبه های تقسیم بندی مبهم و عملکرد پایین تقسیم بندی معنایی.
۴٫۴٫۲٫ نتایج مربوط به مجموعه داده ScanNet
در مورد مجموعه داده ScanNet، ما IAGC را در مجموعه داده های آموزشی آموزش دادیم و نتایج پیش بینی را روی مجموعه داده آزمایشی بدون برچسب به سرور آزمایش ارسال کردیم. به طور کلی، روش‌های پیشرفته‌ای که به سرور آزمایشی ارسال می‌شوند، عمدتاً بر اساس دسته‌های کانولوشن و انواع داده‌های ورودی طبقه‌بندی می‌شوند. همانطور که در جدول ۵ نشان داده شده است ، برخی از شبکه ها مانند ۳DMV [ ۶۳ ]، PFCNN [ ۶۴ ] و Convolution مماس [ ۶۵ ]] برچسب های معنایی را از اطلاعات دوبعدی و سه بعدی بازیابی کرد، در حالی که سایر شبکه های فهرست شده در زیر تنها با داده های ورودی سه بعدی آموزش دیدند و می توان آنها را به پیچیدگی نقطه ای و پیچیدگی نمودار تقسیم کرد. برای مقایسه قانع کننده، ما عمق شبکه IAG-MLP را برای اطمینان از ظرفیت قابل مقایسه مدل IAGC با خط پایه پیچیدگی نقطه تنظیم کردیم.
بدیهی است که در ScanNet مقوله های معنایی بیشتری نسبت به S3DIS وجود دارد که منجر به کاهش کل mIoU می شود. با این حال، روش ما که صرفاً از داده‌های ورودی سه‌بعدی استفاده می‌کند، همچنان به امتیاز ۵۳٫۴% ​​mIoU دست می‌یابد که در مقایسه با شبکه‌هایی که با اطلاعات دوبعدی و سه بعدی آموزش دیده‌اند، به افزایش عملکرد قابل‌توجهی دست‌کم ۵ درصدی دست می‌یابد. به طور مشابه، سازه‌های ساختمانی دائمی، که در S3DIS نیز دیده می‌شوند، مانند دیوارها، کف‌ها و درها، همچنان عملکرد بالایی داشتند. علاوه بر این، اکثر مبلمان، از جمله تخت، کابینت، صندلی، مبل، میز و توالت، میانگین IoU 56.03٪ را به دست آوردند که با اختلاف زیادی (۷٫۴٪) از روش های مبتنی بر پیچش نقطه ای بهتر عمل کردند و سایر مبلمان، مانند به عنوان وان حمام، قفسه کتاب، پیشخوان، و یخچال، نتایج تقسیم بندی رقابتی در مقایسه با روش های پیچش نقطه ای به دست آوردند. از نظر روش‌های مبتنی بر نمودار، هر دو IAGC و SPG ما کانولوشن گراف جهانی را با GRU پیاده‌سازی کردند، اما استراتژی‌های جاسازی محلی متفاوتی داشتند، و IAGC ما ۸٫۳٪ بالاتر از SPG در mIoU بود. به طور کلی، مکانیسم دروازه همراه با تعامل توجه کانال منجر به یک ماژول توجه اضافی برای گرفتن روابط فضایی بیشتری نسبت به پیچیدگی نقطه‌ای معمولی با یک فیلتر خاص کانال می‌شود.
۴٫۴٫۳٫ تجزیه و تحلیل نتایج
به طور کلی، IAG-MLP پیشنهادی ما عملکرد رقابتی را در کار تعبیه نمایش محلی در مقایسه با شبکه‌های کانولوشن نقطه‌ای رایج ارائه می‌دهد و ترکیب شبکه‌های کانولوشن گراف IAG-MLP و جهانی حتی از سایر شبکه‌های مبتنی بر MLP یا ترانسفورماتور بهتر عمل می‌کند. وظیفه تقسیم بندی معنایی بر این اساس، ما این بهبودها را به دو عامل اساسی نسبت می دهیم. اول از همه، IAG-MLP یک مکانیسم توجه تعاملی را اجرا می‌کند که در آن جاسازی‌ها می‌توانند توسط ویژگی‌های تقویت‌شده از ترکیب کانال‌های ویژگی متعدد در روند بهبود تولید نقطه‌ای تحت سلطه قرار گیرند، که برای اشیایی که مبتنی بر هندسه متمایز و متمایز را نشان می‌دهند مفید است. ویژگی های مبتنی بر رنگ (به عنوان مثال، صندلی، مبل، و میز). به دلیل ویژگی های مرتبه بالا که در کانال ویژگی های سطح بالا پخش شده است، اشیاء با هندسه مشابه اما رنگ های متفاوت با اشیاء اطراف (یعنی تخته و پنجره) و اشیاء با رنگ مشابه اما هندسه متفاوت (یعنی تیر و ستون) می توانند به وضوح متمایز شود علاوه بر این، نمایش‌های متمایز به دست آمده از شبکه IAG-MLP تعامل اطلاعات زمینه‌ای را در بین ابرنقاط تسهیل می‌کند. در عمل، با در نظر گرفتن تأثیر اشیاء مجاور مانند مبلمان داخلی و دیوارهای اطراف، کف را از سقف متمایز می کند. در مقابل، کف و سقف ممکن است به طور متقابل تقسیم بندی مبلمان داخلی را افزایش دهند. به طور کلی،

۵٫ نتیجه گیری و بحث

در این مقاله، ما یک معماری عمیق سه‌بعدی جدید برای تقسیم‌بندی معنایی در صحنه‌های درب، به نام پیچیدگی گراف مبتنی بر توجه تعاملی (IAGC) ارائه می‌کنیم. ما ابتدا ابرهای نقطه خام را به ابرنقطه های همگن بر اساس اطلاعات مبتنی بر هندسه و رنگ سازماندهی کردیم تا به طور موثر پیچیدگی محاسباتی را کاهش دهیم و در عین حال ویژگی های اشیاء هر ابرنقطه را تا حد زیادی حفظ کنیم. در عین حال، استفاده از سوپرنقاط به عنوان واحد داده ورودی ممکن است به طور قابل توجهی میدان دریافت را برای به دست آوردن اطلاعات غنی تر گسترش دهد. در نتیجه، با هدف رسیدگی به مشکل یادگیری ویژگی‌های محلی ناکافی توسط PointNet، که بستری برای اکثر شبکه‌های پیشرفته است، ما یک ماژول توجه دوگانه، MLP دروازه‌ای توجه تعاملی، یعنی IAG-MLP، پیشنهاد کردیم. که برای ثبت کامل ویژگی‌های سطح بالا در سوپرنقطه‌ها توسط فیلترهای توجه متقاطع و متقابل کانالی جهت‌گیری می‌کند. علاوه بر این، ما یک معماری RNN دیگر به نام GRU را پیاده‌سازی کردیم که بر روی کل مجموعه سوپرنقطه‌ها برای استخراج اطلاعات متنی جهانی به منظور به‌روزرسانی تعبیه محلی ابرنقاط و تقویت استنتاج نهایی از نظر معنایی انجام می‌شود. در نهایت، آزمایش‌های گسترده بر روی معیارهای باز چالش‌برانگیز نشان می‌دهد که روش پیشنهادی ما می‌تواند یک شبکه محلی بالقوه با قابلیت قوی در بیان ویژگی‌های قوی‌تر برای ابرهای نقطه سه‌بعدی باشد. ما امیدواریم که کار ما الهام‌بخش تحقیقات بیشتر در مورد ایده تقویت معماری MLP با مکانیزم توجه تعاملی، طراحی شبکه‌های مبتنی بر ابرنقطه و تقسیم‌بندی نمونه یا قطعه باشد.

منابع

  1. تانگ، پی. هوبر، دی. آکینجی، بی. لیپمن، آر. Lytle، A. بازسازی خودکار مدل‌های اطلاعات ساختمانی ساخته شده از ابرهای نقطه‌ای اسکن شده با لیزر: مروری بر تکنیک‌های مرتبط. خودکار ساخت و ساز ۲۰۱۰ ، ۱۹ ، ۸۲۹-۸۴۳٫ [ Google Scholar ] [ CrossRef ]
  2. پینتور، جی. مورا، سی. گانولی، اف. فوئنتس-پرز، ال. پاجارولا، آر. Gobbetti، E. آخرین هنر در بازسازی خودکار سه بعدی محیط های داخلی ساختاریافته. محاسبه کنید. نمودار. انجمن ۲۰۲۰ ، ۳۹ ، ۶۶۷–۶۹۹٫ [ Google Scholar ] [ CrossRef ]
  3. شیا، اس. چن، دی. وانگ، آر. لی، جی. ژانگ، X. اصول اولیه هندسی در ابرهای نقطه LiDAR: یک بررسی. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. ۲۰۲۰ , ۱۳ , ۶۸۵–۷۰۷٫ [ Google Scholar ] [ CrossRef ]
  4. لالوند، جی اف. ونداپل، ن. هوبر، دی اف. هیبرت، ام. طبقه بندی زمین طبیعی با استفاده از داده های لادار سه بعدی برای تحرک ربات زمینی. ربات صحرایی جی. ۲۰۰۶ ، ۲۳ ، ۸۳۹-۸۶۱٫ [ Google Scholar ] [ CrossRef ]
  5. گولووینسکی، آ. کیم، وی جی؛ فانک هاسر، T. تشخیص مبتنی بر شکل ابرهای نقطه سه بعدی در محیط های شهری. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE در سال ۲۰۰۹ در بینایی کامپیوتر، کیوتو، ژاپن، ۲۹ سپتامبر تا ۲ اکتبر ۲۰۰۹٫ صص ۲۱۵۴–۲۱۶۱٫ [ Google Scholar ]
  6. گوا، ی. سهل، ف. بن نامون، م. لو، ام. Wan, J. آمار طرح ریزی چرخشی برای توصیف سطح محلی سه بعدی و تشخیص شی. بین المللی جی. کامپیوتر. Vis. ۲۰۱۳ ، ۱۰۵ ، ۶۳-۸۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  7. بهداناو، د. چو، ک. Bengio، Y. ترجمه ماشینی عصبی با یادگیری مشترک تراز و ترجمه. arXiv ۲۰۱۴ ، arXiv:1409.0473. [ Google Scholar ]
  8. یین، دبلیو. کان، ک. یو، م. Schütze, H. مطالعه تطبیقی ​​CNN و RNN برای پردازش زبان طبیعی. arXiv ۲۰۱۷ , arXiv:1702.01923. [ Google Scholar ]
  9. کریژفسکی، آ. سوتسکور، آی. هینتون، GE ImageNet طبقه بندی با شبکه های عصبی کانولوشن عمیق. اشتراک. ACM ۲۰۱۷ ، ۶۰ ، ۸۴–۹۰٫ [ Google Scholar ] [ CrossRef ]
  10. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ صص ۷۷۰-۷۷۸٫ [ Google Scholar ]
  11. بلو، SA; یو، اس. وانگ، سی. بررسی: یادگیری عمیق در ابرهای نقطه سه بعدی. Remote Sens. ۲۰۲۰ , ۱۲ , ۱۷۲۹٫ [ Google Scholar ] [ CrossRef ]
  12. گوا، ی. وانگ، اچ. هو، کیو. لیو، اچ. لیو، ال. یادگیری عمیق برای ابرهای نقطه سه بعدی: یک بررسی. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۲۱ ، ۴۳ ، ۴۳۳۸-۴۳۶۴٫ [ Google Scholar ] [ CrossRef ]
  13. Qi، CR; سو، اچ. کایچون، م. Juibas، LJ PointNet: یادگیری عمیق در مجموعه های نقطه برای طبقه بندی و تقسیم بندی سه بعدی. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئیه ۲۰۱۷؛ انجمن کامپیوتر IEEE: Los Alamitos، CA، USA، ۲۰۱۷٫ [ Google Scholar ]
  14. Qi، CR; یی، ال. سو، اچ. Guibas، LJ Pointnet++: یادگیری ویژگی های سلسله مراتبی عمیق در مجموعه های نقطه در یک فضای متریک. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۴ تا ۹ دسامبر ۲۰۱۷؛ ص ۵۰۹۹-۵۱۰۸٫ [ Google Scholar ]
  15. وانگ، سی. سامری، بی. صدیقی، ک. پیچیدگی نمودار طیفی محلی برای یادگیری ویژگی مجموعه نقطه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، ۸ تا ۱۴ سپتامبر ۲۰۱۸؛ صص ۵۲-۶۶٫ [ Google Scholar ]
  16. لندریو، ال. Simonovsky، M. تقسیم بندی معنایی ابر نقطه ای بزرگ با نمودارهای ابرنقطه ای. در مجموعه مقالات کنفرانس IEEE/CVF 2018 درباره بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
  17. یانگ، جی. ژانگ، Q. نی، بی. لی، ال. لیو، جی. ژو، ام. تیان، کیو. مدل‌سازی ابرهای نقطه با توجه به خود و نمونه‌برداری زیر مجموعه آدامس. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ صص ۳۳۲۳–۳۳۳۲٫ [ Google Scholar ]
  18. وانگ، ال. هوانگ، ی. هو، ی. ژانگ، اس. شان، جی. پیچیدگی توجه نمودار برای تقسیم بندی معنایی ابر نقطه. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، ۱۵ تا ۲۰ ژوئن ۲۰۱۹؛ ص ۱۰۲۹۶-۱۰۳۰۵٫ [ Google Scholar ]
  19. واسوانی، ع. Shazeer، N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، ال. Polosukhin، I. توجه تمام چیزی است که شما نیاز دارید. در مجموعه مقالات NIPS’17: سی و یکمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، رد هوک، نیویورک، ایالات متحده آمریکا، ۴ تا ۹ دسامبر ۲۰۱۷٫ Curran Associates Inc.: Red Hook، نیویورک، ایالات متحده آمریکا، ۲۰۱۷؛ صفحات ۶۰۰۰–۶۰۱۰٫ [ Google Scholar ]
  20. گینارد، اس. Landrieu، L. طبقه‌بندی صحنه‌های شهری با کمک تقسیم‌بندی ضعیف از ابرهای نقطه LiDAR سه بعدی. ISPRS Int. قوس. فتوگرام حسگر از راه دور اسپات. Inf. علمی ۲۰۱۷ ، XLII-1/W1 ، ۱۵۱–۱۵۷٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. لیو، اچ. دای، ز. بنابراین، DR; Le, QV به MLP ها توجه کنید. arXiv ۲۰۲۱ ، arXiv:2105.08050. [ Google Scholar ]
  22. گرف، ک. سریواستاوا، RK; کوتنیک، جی. Steunebrink، BR; Schmidhuber, J. LSTM: یک اودیسه فضای جستجو. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم ۲۰۱۶ ، ۲۸ ، ۲۲۲۲-۲۲۳۲٫ [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  23. چو، ک. ون مرینبور، بی. گلچهره، سی. بهداناو، د. بوگارس، اف. شونک، اچ. Bengio، Y. آموزش نمایش عبارات با استفاده از رمزگذار-رمزگشا RNN برای ترجمه ماشینی آماری. arXiv ۲۰۱۴ ، arXiv:1406.1078. [ Google Scholar ]
  24. شیائو، جی. وانگ، اچ. لای، تی. Suter، D. مدل سازی هایپرگراف برای برازش مدل هندسی. تشخیص الگو ۲۰۱۶ ، ۶۰ ، ۷۴۸-۷۶۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. Truong، پردازش ابرهای نقطه سه بعدی مبتنی بر دانش QH. Ph.D. پایان نامه، دانشگاه Bourgogne، دیژون، فرانسه، ۲۰۱۳٫ [ Google Scholar ]
  26. پونچیانو، جی جی. روتنر، ام. ریترر، آ. Boochs, F. تقسیم بندی معنایی شی در ابرهای نقطه-مقایسه یک روش یادگیری عمیق و یک روش مبتنی بر دانش. ISPRS Int. J. Geo-Inf. ۲۰۲۱ ، ۱۰ ، ۲۵۶٫ [ Google Scholar ] [ CrossRef ]
  27. Qi، CR; سو، اچ. نیبنر، ام. دای، ا. یان، م. CNN های حجمی Guibas، LJ و Multi-View برای طبقه بندی اشیاء در داده های سه بعدی. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده آمریکا، ۲۷ تا ۳۰ ژوئن ۲۰۱۶٫ [ Google Scholar ]
  28. فنگ، ی. ژانگ، ز. ژائو، ایکس. جی، ر. گائو، Y. GVCNN: شبکه های عصبی کانولوشنال مشاهده گروهی برای تشخیص شکل سه بعدی. در مجموعه مقالات کنفرانس IEEE/CVF 2018 درباره بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
  29. سو، اچ. جامپانی، وی. سان، دی. مجی، س. کالوگراکیس، ای. یانگ، M.-H. Kautz، J. SPLATNet: شبکه های شبکه پراکنده برای پردازش ابر نقطه ای. در مجموعه مقالات کنفرانس IEEE/CVF 2018 در مورد دید رایانه و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸٫ [ Google Scholar ]
  30. دو، ج. جیانگ، ز. هوانگ، اس. وانگ، ز. سو، جی. سو، اس. وو، ی. شبکه تقسیم بندی معنایی ابر نقطه ای Ca، G. بر اساس ترکیب ویژگی های چند مقیاسی. Sensors ۲۰۲۱ , ۲۱ , ۱۶۲۵٫ [ Google Scholar ] [ CrossRef ]
  31. جیانگ، م. وو، ی. ژائو، تی. ژائو، ز. Lu, C. PointSIFT: یک ماژول شبکه SIFT مانند برای تقسیم بندی معنایی ابر نقطه سه بعدی. arXiv ۲۰۱۸ , arXiv:1807.00652. [ Google Scholar ]
  32. لی، ی. بو، ر. سان، م. وو، دبلیو. دی، ایکس. Chen, B. Pointcnn: Convolution on x-transformed points. Adv. عصبی Inf. Proc. سیستم ۲۰۱۸ ، ۳۱ ، ۸۲۰-۸۳۰٫ [ Google Scholar ]
  33. لین، ی. وانگ، سی. ژای، دی. لی، دبلیو. لی، جی. به سوی مرزبندی بهتر، تقسیم بندی سوپروکسل برای ابرهای نقطه سه بعدی حفظ شده است. ISPRS J. Photogramm. Remote Sens. ۲۰۱۸ ، ۱۴۳ ، ۳۹–۴۷٫ [ Google Scholar ] [ CrossRef ]
  34. هوی، ال. یوان، جی. چنگ، م. زی، جی. ژانگ، ایکس. یانگ، جی. شبکه سوپرپوینت برای تقسیم بندی بیش از حد ابر نقطه. در مجموعه مقالات کنفرانس بین‌المللی IEEE/CVF در بینایی رایانه، مونترال، QC، کانادا، ۱۰ تا ۱۷ اکتبر ۲۰۲۱٫ [ Google Scholar ]
  35. چنگ، م. هوی، ال. زی، جی. یانگ، جی. کنگ، H. شبکه عصبی غیر محلی آبشاری برای تقسیم‌بندی معنایی ابر نقطه‌ای. در مجموعه مقالات کنفرانس بین المللی IEEE/RSJ 2020 در مورد ربات ها و سیستم های هوشمند (IROS)، لاس وگاس، NV، ایالات متحده آمریکا، ۲۵ تا ۲۹ اکتبر ۲۰۲۰؛ صص ۸۴۴۷–۸۴۵۲٫ [ Google Scholar ]
  36. دوسوویتسکی، آ. بیر، ال. کولسنیکوف، آ. وایسنبورن، دی. ژای، ایکس. Unterthiner، T. دهقانی، م. مایندرر، م. هیگلد، جی. گلی، اس. و همکاران ارزش یک تصویر ۱۶ × ۱۶ کلمه است: ترانسفورماتور برای تشخیص تصویر در مقیاس. arXiv ۲۰۲۰ ، arXiv:2010.11929. [ Google Scholar ]
  37. ژائو، اچ. جیانگ، ال. جیا، جی. تور، پی. ترانسفورماتور کلتون، V. نقطه ای. arXiv ۲۰۲۰ ، arXiv:2012.09164. [ Google Scholar ]
  38. Guo، MH; Cai، JX; لیو، ZN; مو، تی. مارتین، آر. Hu, S. PCT: ترانسفورماتور ابر نقطه ای. محاسبه کنید. Vis. رسانه ۲۰۲۱ ، ۷ ، ۱۸۷-۱۹۹٫ [ Google Scholar ] [ CrossRef ]
  39. پان، X. شیا، ز. آهنگ ها.؛ لی، ال. Huang, G. تشخیص شی سه بعدی با pointformer. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو، نشویل، TN، ایالات متحده، ۲۰-۲۵ ژوئن ۲۰۲۱؛ صص ۷۴۶۳-۷۴۷۲٫ [ Google Scholar ]
  40. هو، کیو. یانگ، بی. زی، ال. رزا، اس. گوا، ی. وانگ، ز. تریگونی، ن. مارکهام، A. Randla-net: تقسیم بندی معنایی کارآمد ابرهای نقطه ای در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو، سیاتل، WA، ایالات متحده آمریکا، ۱۳ تا ۱۹ ژوئن ۲۰۲۰؛ ص ۱۱۱۰۸–۱۱۱۱۷٫ [ Google Scholar ]
  41. وانگ، ایکس. او، جی. Ma، L. بهره‌برداری از ساختار محلی و جهانی برای تقسیم‌بندی معنایی ابر نقطه‌ای با بازنمایی‌های نقطه‌ای متنی. در مجموعه مقالات کنفرانس سیستم های پردازش اطلاعات عصبی (NeurIPS)، ونکوور، BC، کانادا، ۸ تا ۱۵ دسامبر ۲۰۱۹؛ صص ۴۵۷۳-۴۵۸۳٫ [ Google Scholar ]
  42. ژو، جی. کوی، جی. هو، اس. ژانگ، ز. یانگ، سی. لیو، ز. وانگ، ال. لی، سی. Sun، M. گراف شبکه های عصبی: مروری بر روش ها و کاربردها. AI Open ۲۰۲۰ ، ۱ ، ۵۷–۸۱٫ [ Google Scholar ] [ CrossRef ]
  43. وو، زی. پان، اس. چن، اف. لانگ، جی. ژانگ، سی. فیلیپ، SY یک بررسی جامع در مورد شبکه های عصبی نمودار. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم ۲۰۲۰ ، ۳۲ ، ۴-۲۴٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  44. ژانگ، ز. کوی، پی. زو، دبلیو. یادگیری عمیق روی نمودارها: نظرسنجی. IEEE Trans. بدانید. مهندسی داده ۲۰۲۰ ، ۳۴ ، ۲۴۹-۲۷۰٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  45. Kipf، TN; Welling, M. طبقه بندی نیمه نظارت شده با شبکه های کانولوشن گراف. arXiv ۲۰۱۶ , arXiv:1609.02907. [ Google Scholar ]
  46. شومان، دی. نارنگ، SK; فروسارد، پ. اورتگا، آ. Vandergheynst، P. زمینه در حال ظهور پردازش سیگنال در نمودارها: گسترش تجزیه و تحلیل داده های با ابعاد بالا به شبکه ها و سایر حوزه های نامنظم. پروسه سیگنال IEEE Mag. ۲۰۱۳ ، ۳۰ ، ۸۳-۹۸٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. ژی هنگ، ک. Ning، L. PyramNet: شبکه توجه هرم ابر نقطه ای و ماژول تعبیه گراف برای طبقه بندی و تقسیم بندی. arXiv ۲۰۱۹ ، arXiv:1906.03299. [ Google Scholar ]
  48. لو، اچ. چن، سی. نیش، ال. خوشلحم، ک. Shen, G. Ms-rrfsegnet:f شبکه تقسیم‌بندی ویژگی روابط منطقه‌ای چند مقیاسی برای تقسیم‌بندی معنایی ابرهای نقطه صحنه شهری. IEEE Trans. Geosci. Remote Sens. ۲۰۲۰ , ۵۸ , ۸۳۰۱–۸۳۱۵٫ [ Google Scholar ] [ CrossRef ]
  49. دمانتکی، جی. مالت، سی. دیوید، ن. Vallet، B. انتخاب مقیاس مبتنی بر ابعاد در ابرهای نقطه لیدار سه بعدی. بین المللی قوس. فتوگرام حسگر از راه دور اسپات. Inf. علمی ۲۰۱۱ ، ۳۸ ، ۹۷-۱۰۲٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. لندریو، ال. Obozinski، G. Cut pursuit: الگوریتم‌های سریع برای یادگیری توابع ثابت تکه‌ای روی نمودارهای وزن‌دار عمومی. SIAM J. Imaging Sci. ۲۰۱۷ ، ۱۰ ، ۱۷۲۴-۱۷۶۶٫ [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  51. سنتورکار، اس. سیپراس، دی. الیاس، ع. Dry، A. نرمال سازی دسته ای چگونه به بهینه سازی کمک می کند؟ در مجموعه مقالات سی و دومین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، مونترال، QC، کانادا، ۳ تا ۸ دسامبر ۲۰۱۸؛ ص ۲۴۸۸-۲۴۹۸٫ [ Google Scholar ]
  52. Agarap، AF یادگیری عمیق با استفاده از واحدهای خطی اصلاح شده (relu). arXiv ۲۰۱۸ , arXiv:1803.08375. [ Google Scholar ]
  53. انواع Shazeer، N. Glu ترانسفورماتور را بهبود می بخشد. arXiv ۲۰۲۰ ، arXiv:2002.05202. [ Google Scholar ]
  54. Dauphin، YN; فن، ا. اولی، م. Grangier، D. مدل‌سازی زبان با شبکه‌های کانولوشنال دردار. بین المللی Conf. ماخ فرا گرفتن. PMLR ۲۰۱۷ ، ۷۰ ، ۹۳۳-۹۴۱٫ [ Google Scholar ]
  55. Guo، MH; لیو، ZN; مو، تی جی; Hu، SM فراتر از توجه به خود: توجه خارجی با استفاده از دو لایه خطی برای وظایف بصری. در مجموعه مقالات کنفرانس IEEE 2021 در مورد دید رایانه و تشخیص الگو (CVPR)، یک رویداد مجازی. ۱۹ ژوئن ۲۰۲۱٫ [ Google Scholar ]
  56. سیمونوفسکی، م. کوموداکیس، N. فیلترهای شرطی لبه پویا در شبکه های عصبی کانولوشن روی نمودارها. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئن ۲۰۱۷؛ صص ۳۶۹۳-۳۷۰۲٫ [ Google Scholar ]
  57. جیا، ایکس. دی براباندر، بی. تویتلارس، تی. شبکه های فیلتر پویا Gool، L. V. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، بارسلون، اسپانیا، ۵ تا ۱۰ دسامبر ۲۰۱۶٫ صص ۶۶۷-۶۷۵٫ [ Google Scholar ]
  58. ارمنی، من. سنر، او. ضمیر، ع. جیانگ، اچ. بریلاکیس، آی. فیشر، ام. Savarese, S. تجزیه معنایی سه بعدی فضاهای داخلی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، ۲۷-۳۰ ژوئن ۲۰۱۶٫ صص ۱۵۳۴-۱۵۴۳٫ [ Google Scholar ]
  59. دای، ا. چانگ، تبر. ساوا، م. هالبر، ام. فانک هاسر، تی. Niessner, M. Scannet: بازسازی های سه بعدی با حاشیه های غنی از صحنه های داخلی. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، ۲۱ تا ۲۶ ژوئن ۲۰۱۷؛ ص ۲۴۳۲-۲۴۴۳٫ [ Google Scholar ]
  60. Hua، BS; فام، QH; نگوین، دی.تی. Tran، MK; یو، LF; Yeung, SK Scenenn: A Scene Meshes Dataset با حاشیه نویسی. در مجموعه مقالات کنفرانس بین‌المللی روی دید سه بعدی (۳DV)، استنفورد، کالیفرنیا، ایالات متحده آمریکا، ۲۵ تا ۲۸ اکتبر ۲۰۱۶٫ [ Google Scholar ]
  61. سیلبرمن، ن. هویم، دی. کهلی، پ. Fergus, R. تقسیم بندی داخلی و استنتاج پشتیبانی از تصاویر RGBD. در Computer Vision-ECCV 2012 ; Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C., Eds.; یادداشت های سخنرانی در علوم کامپیوتر; Springer: برلین/هایدلبرگ، آلمان، ۲۰۱۲; صص ۷۴۶-۷۶۰٫ [ Google Scholar ]
  62. ولیچکوویچ، پ. کوکورول، جی. کازانووا، آ. رومرو، آ. لیو، پی. Bengio، Y. گراف شبکه های توجه. در مجموعه مقالات کنفرانس بین المللی در مورد بازنمایی های یادگیری، ونکوور، بریتیش کلمبیا، کانادا، ۳۰ آوریل تا ۳ مه ۲۰۱۸٫ [ Google Scholar ]
  63. دای، ا. Nießner, M. 3dmv: پیش‌بینی مشترک سه بعدی چند نمای برای تقسیم‌بندی صحنه معنایی سه بعدی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، ۸ تا ۱۴ سپتامبر ۲۰۱۸؛ ص ۴۵۲-۴۶۸٫ [ Google Scholar ]
  64. یانگ، ی. لیو، اس. پان، اچ. لیو، ی. Tong, X. PFCNN: شبکه های عصبی کانولوشن روی سطوح سه بعدی با استفاده از فریم های موازی. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو، سیاتل، WA، ایالات متحده آمریکا، ۱۶-۱۸ ژوئن ۲۰۲۰؛ ص ۱۳۵۷۸–۱۳۵۸۷٫ [ Google Scholar ]
  65. تاتارچنکو، م. پارک، جی. کلتون، وی. ژو، پیچش مماس QY برای پیش‌بینی متراکم در سه بعدی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، ۱۸ تا ۲۳ ژوئن ۲۰۱۸؛ صص ۳۸۸۷–۳۸۹۶٫ [ Google Scholar ]
  66. رتاژ، دی. والد، جی. استورم، جی. نواب، ن. Tombari, F. شبکه های نقطه ای کاملاً پیچیده برای ابرهای نقطه ای در مقیاس بزرگ. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، ۸ تا ۱۴ سپتامبر ۲۰۱۸؛ صص ۵۹۶-۶۱۱٫ [ Google Scholar ]
شکل ۱٫ تصویر پارتیشن فوق نقطه. ( الف ) ابرهای نقطه خام؛ ( ب ) نتیجه تقسیم بندی هندسی ابرنقطه ای.
شکل ۲٫ نمای کلی معماری ترانسفورماتور وانیلی.
شکل ۳٫ ماژول تجمیع ویژگی محلی پیشنهادی. پانل پایین شبکه دروازه توجه تعاملی (IAG) – پرسپترون چند لایه (MLP) را برای رمزگذاری ویژگی های محلی در ابرنقاط از پیش پردازش شده نشان می دهد. پانل بالایی بلوک IAG هسته را نشان می دهد که از مکانیسم توجه متقاطع دوگانه برای محاسبه وزن توجه موقعیت متقاطع توسط یک واحد حافظه مشترک استفاده می کند و توجه بین کانالی را بر روی کانال های ویژگی که به عنوان گونه ای از خود-ساخته شده است، به کار می گیرد. ماژول توجه
شکل ۴٫ معماری شبکه کانولوشن گراف مبتنی بر توجه تعاملی (IAGC) پیشنهادی. ما خوشه‌بندی و تقسیم‌بندی بیش از حد را روی ابرهای نقطه خام برای مجموعه سوپرنقطه برای استخراج ویژگی‌های محلی با IAG-MLP انجام می‌دهیم، که به‌صورت جداگانه هر ابرنقطه را با N نقطه نمونه‌گیری پایین‌آوری جاسازی می‌کند. با توجه به راس ها و لبه های متصل در نمودار سراسری، جاسازی ها به صورت سلسله مراتبی در واحد بازگشتی دروازه ای (GRU) تنظیم شده و به صورت معنایی برچسب گذاری می شوند.
شکل ۵٫ ساختار GRU.
شکل ۶٫ معماری پیاده سازی شده IAG-MLP.
شکل ۷٫ فرآیندهای آموزشی مدل های Transformer + GRU، PointNet + GRU، ۲-IAG-MLP + GRU و ۳-IAG-MLP + GRU روی مجموعه داده S3DIS در ناحیه ۴ برابری. ( الف ) دقت آموزش. ( ب ) میانگین کلاس تقاطع بیش از اتحادیه (mIoU).
شکل ۸٫ نمونه های بصری سازی نتایج پیش پردازش در مجموعه داده ScanNet با { v= 0.02، μ= ۰٫۰۳} در حداکثر تعداد سوپرنقطه های مختلف برای تجمع جهانی.
شکل ۹٫ نمونه های بصری سازی نتایج تقسیم بندی در مجموعه داده ScanNet پیش پردازش شده با { v= 0.02، μ= ۰٫۰۳} در حداکثر تعداد سوپرنقطه های مختلف برای تجمع جهانی.
شکل ۱۰٫ نمونه های تجسم سه صحنه (دفتر، راهرو و اتاق کنفرانس) در ناحیه ۴ مجموعه داده S3DIS.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما