要約
3D でのインスタンスのセグメンテーションは、大規模な注釈付きデータセットが不足しているため、困難な作業です。
この論文では、インスタンスのセグメンテーションに事前トレーニングされた 2D モデルを代わりに活用することで、このタスクに効果的に対処できることを示します。
私たちは、2D セグメントを 3D に持ち上げ、ニューラル フィールド表現によって融合する新しいアプローチを提案します。これにより、フレーム全体でのマルチビューの一貫性が促進されます。
私たちのアプローチの中核は、低速-高速クラスタリング目的関数であり、スケーラブルで、多数のオブジェクトを含むシーンに適しています。
以前のアプローチとは異なり、私たちの方法ではオブジェクトの数に上限を設けたり、フレーム全体でオブジェクトを追跡したりする必要はありません。
低速クラスタリングと高速クラスタリングのスケーラビリティを実証するために、シーンごとに最大 500 個のオブジェクトを含むシーンを特徴とする、乱雑な部屋データセットと呼ばれる新しい半現実的なデータセットを作成します。
私たちのアプローチは、ScanNet、Hypersim、Replica データセットの困難なシーンだけでなく、新しく作成された Messy Rooms データセットでも最先端の手法を上回り、低速/高速クラスタリング手法の有効性とスケーラビリティを実証しています。
要約(オリジナル)
Instance segmentation in 3D is a challenging task due to the lack of large-scale annotated datasets. In this paper, we show that this task can be addressed effectively by leveraging instead 2D pre-trained models for instance segmentation. We propose a novel approach to lift 2D segments to 3D and fuse them by means of a neural field representation, which encourages multi-view consistency across frames. The core of our approach is a slow-fast clustering objective function, which is scalable and well-suited for scenes with a large number of objects. Unlike previous approaches, our method does not require an upper bound on the number of objects or object tracking across frames. To demonstrate the scalability of the slow-fast clustering, we create a new semi-realistic dataset called the Messy Rooms dataset, which features scenes with up to 500 objects per scene. Our approach outperforms the state-of-the-art on challenging scenes from the ScanNet, Hypersim, and Replica datasets, as well as on our newly created Messy Rooms dataset, demonstrating the effectiveness and scalability of our slow-fast clustering method.
arxiv情報
著者 | Yash Bhalgat,Iro Laina,João F. Henriques,Andrew Zisserman,Andrea Vedaldi |
発行日 | 2023-06-07 17:57:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google