OneFormer3D: One Transformer for Unified Point Cloud Segmentation


3D 点群のセマンティック、インスタンス、およびパノプティック セグメンテーションは、明確な設計のタスク固有のモデルを使用して対処されています。
そのため、すべてのセグメンテーション タスクの類似性とそれらの間の暗黙の関係が効果的に活用されていません。
OneFormer3D という名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティック セグメンテーションを一貫して実行します。各カーネルは、インスタンスまたはセマンティック カテゴリのマスクを生成します。
これらのカーネルは、入力として渡される統合インスタンスとセマンティック クエリを使用して、トランスフォーマー ベースのデコーダーでトレーニングされます。
このような設計により、1 回の実行でモデルをエンドツーエンドでトレーニングできるため、3 つのセグメンテーション タスクすべてで同時に最高のパフォーマンスを達成できます。
具体的には、当社の OneFormer3D が 1 位にランクされ、ScanNet テスト リーダーボードで新しい最先端 (+2.1 mAP50) を記録しました。
また、ScanNet (+21 PQ)、ScanNet200 (+3.8 mAP50)、および S3DIS (+0.8 mIoU) データセットのセマンティック、インスタンス、パノプティック セグメンテーションにおける最先端の結果も実証します。


Semantic, instance, and panoptic segmentation of 3D point clouds have been addressed using task-specific models of distinct design. Thereby, the similarity of all segmentation tasks and the implicit relationship between them have not been utilized effectively. This paper presents a unified, simple, and effective model addressing all these tasks jointly. The model, named OneFormer3D, performs instance and semantic segmentation consistently, using a group of learnable kernels, where each kernel is responsible for generating a mask for either an instance or a semantic category. These kernels are trained with a transformer-based decoder with unified instance and semantic queries passed as an input. Such a design enables training a model end-to-end in a single run, so that it achieves top performance on all three segmentation tasks simultaneously. Specifically, our OneFormer3D ranks 1st and sets a new state-of-the-art (+2.1 mAP50) in the ScanNet test leaderboard. We also demonstrate the state-of-the-art results in semantic, instance, and panoptic segmentation of ScanNet (+21 PQ), ScanNet200 (+3.8 mAP50), and S3DIS (+0.8 mIoU) datasets.


著者 Maxim Kolodiazhnyi,Anna Vorontsova,Anton Konushin,Danila Rukhovich
発行日 2023-11-24 10:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク