Mask3D for 3D Semantic Instance Segmentation

要約

現代の3Dセマンティックインスタンス分割アプローチは、慎重に設計された幾何学的クラスタリング技術に続く特殊な投票メカニズムに主に依存している。オブジェクト検出と画像分割のための最近のTransformerベースの手法の成功に基づき、我々は3Dセマンティックインスタンス分割のための最初のTransformerベースのアプローチを提案する。我々は、3次元点群から直接インスタンスマスクを予測するために、一般的なTransformerの構成要素を活用できることを示す。我々のMask3Dと呼ばれるモデルでは、各オブジェクトのインスタンスは、インスタンスクエリとして表現される。Transformerデコーダを用いて、インスタンスクエリは複数のスケールでの点群の特徴に繰り返し注目することで学習される。点群の特徴量と組み合わせることで、インスタンスクエリが直接すべてのインスタンスマスクを並列に生成する。Mask3Dは、(1)手作業で選択された幾何学的特性(中心など)を必要とする投票スキームや、(2)手作業で調整された超パラメータ(半径など)を必要とする幾何学的グルーピング機構に依存せず、(3)インスタンスマスクを直接最適化する損失を可能にすることから、現在の最先端アプローチに対していくつかの利点を持っています。Mask3Dは、ScanNet test (+6.2 mAP), S3DIS 6-fold (+10.1 mAP), STPLS3D (+11.2 mAP), ScanNet200 test (+12.4 mAP)で新しい最先端を記録しています。

要約(オリジナル)

Modern 3D semantic instance segmentation approaches predominantly rely on specialized voting mechanisms followed by carefully designed geometric clustering techniques. Building on the successes of recent Transformer-based methods for object detection and image segmentation, we propose the first Transformer-based approach for 3D semantic instance segmentation. We show that we can leverage generic Transformer building blocks to directly predict instance masks from 3D point clouds. In our model called Mask3D each object instance is represented as an instance query. Using Transformer decoders, the instance queries are learned by iteratively attending to point cloud features at multiple scales. Combined with point features, the instance queries directly yield all instance masks in parallel. Mask3D has several advantages over current state-of-the-art approaches, since it neither relies on (1) voting schemes which require hand-selected geometric properties (such as centers) nor (2) geometric grouping mechanisms requiring manually-tuned hyper-parameters (e.g. radii) and (3) enables a loss that directly optimizes instance masks. Mask3D sets a new state-of-the-art on ScanNet test (+6.2 mAP), S3DIS 6-fold (+10.1 mAP), STPLS3D (+11.2 mAP) and ScanNet200 test (+12.4 mAP).

arxiv情報

著者 Jonas Schult,Francis Engelmann,Alexander Hermans,Or Litany,Siyu Tang,Bastian Leibe
発行日 2022-10-06 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク