要約
ScanNet などの現代の 3D セグメンテーション ベンチマークの最先端のモデルは、検知されたマルチビュー RGB-D 画像の後処理を通じて取得された、データセットが提供する 3D 点群を消費し、ラベルを付けます。
これらは通常、大規模な 2D 事前トレーニングを省略してドメイン内でトレーニングされ、代わりにポーズをとった RGB-D マルチビュー画像を特徴とする代替手段よりも優れたパフォーマンスを発揮します。
ポーズをとった画像を使用する方法と、後処理された 3D 点群を使用する方法との間のパフォーマンスのギャップにより、2D と 3D の認識には別個のモデル アーキテクチャが必要であるという考えが広まっています。
この論文では、この見方に異議を唱え、2D ビュー内と 3D クロス間を切り替える変換アーキテクチャを使用して、2D RGB 画像と 3D 点群の両方をセグメント化してラベル付けできるモデルである ODIN (Omni-Dimensional INstance セグメンテーション) を提案します。
ビュー情報の融合。
私たちのモデルは、関連するトークンの位置エンコーディングを通じて 2D フィーチャ操作と 3D フィーチャ操作を区別し、2D パッチ トークンのピクセル座標と 3D フィーチャ トークンの 3D 座標をキャプチャします。
ODIN は、ScanNet200、Matterport3D、AI2THOR 3D インスタンス セグメンテーション ベンチマークで最先端のパフォーマンスを実現し、ScanNet、S3DIS、COCO で競争力のあるパフォーマンスを実現します。
3D メッシュからサンプリングされた点群の代わりに、センシングされた 3D 点群が使用された場合、これまでのすべての作業を大幅に上回りました。
指示可能な具体化されたエージェント アーキテクチャの 3D 認識エンジンとして使用すると、TEACh の対話からのアクション ベンチマークで新しい最先端の技術が確立されます。
私たちのコードとチェックポイントは、プロジェクト Web サイト (https://odin-seg.github.io) で見つけることができます。
要約(オリジナル)
State-of-the-art models on contemporary 3D segmentation benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website (https://odin-seg.github.io).
arxiv情報
著者 | Ayush Jain,Pushkal Katara,Nikolaos Gkanatsios,Adam W. Harley,Gabriel Sarch,Kriti Aggarwal,Vishrav Chaudhary,Katerina Fragkiadaki |
発行日 | 2024-04-25 19:51:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google