要約
Gagaを紹介します。Gagaは、ゼロショットクラスに依存しないセグメンテーションモデルによって予測される一貫性のない2Dマスクを活用することにより、オープンワールド3Dシーンを再構築およびセグメントするフレームワークです。
ビデオオブジェクトの追跡または対照学習方法に依存する以前の3Dシーンセグメンテーションアプローチとは対照的に、Gagaは空間情報を利用し、新しい3Dに認識されたメモリバンクを通じて多様なカメラポーズにオブジェクトマスクを効果的に関連付けます。
トレーニング画像の継続的なビューの変化の仮定を排除することにより、ガガはカメラのポーズの変動に対する堅牢性、特にまばらにサンプリングされた画像に有益であり、正確なマスクラベルの一貫性を確保します。
さらに、Gagaは多様なソースからの2Dセグメンテーションマスクに対応し、異なるオープンワールドのゼロショットクラスに依存しないセグメンテーションモデルで堅牢なパフォーマンスを示し、その汎用性を大幅に向上させます。
広範な定性的および定量的評価は、Gagaが最新の方法に対して好意的に機能し、3Dシーンの理解や操作などの実際のアプリケーションの可能性を強調することを示しています。
要約(オリジナル)
We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot class-agnostic segmentation models. Contrasted to prior 3D scene segmentation approaches that rely on video object tracking or contrastive learning methods, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses through a novel 3D-aware memory bank. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot class-agnostic segmentation models, significantly enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as 3D scene understanding and manipulation.
arxiv情報
著者 | Weijie Lyu,Xueting Li,Abhijit Kundu,Yi-Hsuan Tsai,Ming-Hsuan Yang |
発行日 | 2025-03-27 17:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google