要約
ScanNetのような現代の3D知覚ベンチマークにおける最先端のモデルは、データセットから提供された3D点群を利用し、ラベル付けを行う。これらのモデルは、一般的にインドメインで学習されるため、大規模な2D事前学習が不要であり、代わりにポーズされたRGB-Dマルチビュー画像をフィーチャライズする他の手法よりも優れています。ポーズ画像を利用する手法と、後処理された3D点群を利用する手法の間の性能差は、2D知覚と3D知覚には異なるモデルアーキテクチャが必要であるという考えを助長してきた。本論文では、この考え方に挑戦し、2D RGB画像と3D点群の両方をセグメンテーションしラベル付けできるモデル、ODIN(Omni-Dimensional INstance segmentation)を提案する。このモデルは、2Dパッチトークンの場合はピクセル座標を、3D特徴トークンの場合は3D座標をキャプチャするトークンの位置エンコーディングによって、2Dと3Dの特徴操作を区別する。ODINは、ScanNet200、Matterport3D、AI2THORの3Dインスタンスセグメンテーションベンチマークで最先端の性能を達成し、ScanNet、S3DIS、COCOで競争力のある性能を達成した。また、3Dメッシュからサンプリングされた点群ではなく、センシングされた3D点群が使用された場合、全ての先行研究を大きく上回る性能を発揮します。また、指示可能な具現化エージェントアーキテクチャの3D知覚エンジンとして使用した場合、TEACh action-from-dialogue ベンチマークで新たな最先端を打ち立てました。私たちのコードとチェックポイントは、プロジェクトのウェブサイトhttps://odin-seg.github.io。
要約(オリジナル)
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.
arxiv情報
著者 | Ayush Jain,Pushkal Katara,Nikolaos Gkanatsios,Adam W. Harley,Gabriel Sarch,Kriti Aggarwal,Vishrav Chaudhary,Katerina Fragkiadaki |
発行日 | 2024-01-04 18:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |