Robust Double-Encoder Network for RGB-D Panoptic Segmentation

要約

実世界で行動するロボットにとって、知覚は非常に重要である。なぜなら、自律システムが適切に行動するためには、周囲の世界を見て理解する必要があるからである。汎光セグメンテーションは、ピクセル単位の意味的なラベルとインスタンスIDを計算することによって、シーンの解釈を提供する。本論文では、屋内シーンのRGB-Dデータを用いた汎光セグメンテーションを扱う。我々は、2つのエンコーダを通してRGBと奥行きを別々に処理する、新しいエンコーダデコーダニューラルネットワークを提案する。個々のエンコーダの特徴は、異なる解像度で徐々に統合され、RGBの特徴が補完的な深度情報を用いて強化される。我々はResidualExciteと呼ばれる新しい結合手法を提案する。これは、特徴マップの各エントリーの重要度に応じて重み付けを行うものである。ダブルエンコーダーアーキテクチャにより、我々はキューの欠落に対してロバストである。特に、RGB-D、RGBのみ、奥行きのみの入力データに対して、専用のモデルを学習することなく、同じモデルで学習と推論が可能である。本手法を一般に公開されているデータセットで評価し、本手法が他の一般的なパノプティックセグメンテーションのアプローチと比較して優れた結果を達成することを示す。

要約(オリジナル)

Perception is crucial for robots that act in real-world environments, as autonomous systems need to see and understand the world around them to act appropriately. Panoptic segmentation provides an interpretation of the scene by computing a pixel-wise semantic label together with instance IDs. In this paper, we address panoptic segmentation using RGB-D data of indoor scenes. We propose a novel encoder-decoder neural network that processes RGB and depth separately through two encoders. The features of the individual encoders are progressively merged at different resolutions, such that the RGB features are enhanced using complementary depth information. We propose a novel merging approach called ResidualExcite, which reweighs each entry of the feature map according to its importance. With our double-encoder architecture, we are robust to missing cues. In particular, the same model can train and infer on RGB-D, RGB-only, and depth-only input data, without the need to train specialized models. We evaluate our method on publicly available datasets and show that our approach achieves superior results compared to other common approaches for panoptic segmentation.

arxiv情報

著者 Matteo Sodano,Federico Magistri,Tiziano Guadagnino,Jens Behley,Cyrill Stachniss
発行日 2022-10-06 11:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク