Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer

要約

視覚に基づいた認識と推論は、自律システムにおけるシーンの理解に不可欠です。
RGB および深度画像は、環境の意味的特徴と幾何学的特徴の両方をキャプチャするために一般的に使用されます。
このデータを確実に解釈する方法を開発することは、ノイズの多い測定がしばしば避けられない現実のアプリケーションにとって非常に重要です。
この研究では、RGB-D セマンティック セグメンテーションの問題に対処するための拡散ベースのフレームワークを導入します。
さらに、デフォーマブル アテンション トランスフォーマーをエンコーダとして利用して深度画像から特徴を抽出すると、深度測定で無効な領域の特性が効果的に捕捉されることを実証します。
私たちの生成フレームワークは、RGB-D 画像の基礎となる分布をモデル化する能力が高く、識別手法と比較してトレーニング時間を大幅に短縮しながら、困難なシナリオでも堅牢なパフォーマンスを実現します。
実験結果は、私たちのアプローチが、一般的に NYUv2 と SUN-RGBD の両方のデータセット、特に最も困難な画像データにおいて最先端のパフォーマンスを達成することを示しています。
私たちのプロジェクト ページは https://diffusionmms.github.io/ で利用できるようになります。

要約(オリジナル)

Vision-based perception and reasoning is essential for scene understanding in any autonomous system. RGB and depth images are commonly used to capture both the semantic and geometric features of the environment. Developing methods to reliably interpret this data is critical for real-world applications, where noisy measurements are often unavoidable. In this work, we introduce a diffusion-based framework to address the RGB-D semantic segmentation problem. Additionally, we demonstrate that utilizing a Deformable Attention Transformer as the encoder to extract features from depth images effectively captures the characteristics of invalid regions in depth measurements. Our generative framework shows a greater capacity to model the underlying distribution of RGB-D images, achieving robust performance in challenging scenarios with significantly less training time compared to discriminative methods. Experimental results indicate that our approach achieves State-of-the-Art performance on both the NYUv2 and SUN-RGBD datasets in general and especially in the most challenging of their image data. Our project page will be available at https://diffusionmms.github.io/

arxiv情報

著者 Minh Bui,Kostas Alexis
発行日 2024-09-27 13:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク