要約
ゼロショット セグメンテーション モデルによって予測された一貫性のない 2D マスクを利用して、オープンワールド 3D シーンを再構築してセグメント化するフレームワークである Gaga を紹介します。
ビデオ オブジェクト トラッキングに大きく依存する以前の 3D シーン セグメンテーションのアプローチとは対照的に、Gaga は空間情報を利用し、さまざまなカメラ ポーズにわたってオブジェクト マスクを効果的に関連付けます。
Gaga は、トレーニング画像の連続的なビュー変更の仮定を排除することで、カメラのポーズの変動に対する堅牢性を実証し、まばらにサンプリングされた画像に特に有益であり、正確なマスク ラベルの一貫性を保証します。
さらに、Gaga はさまざまなソースからの 2D セグメンテーション マスクに対応し、さまざまなオープンワールド ゼロショット セグメンテーション モデルで堅牢なパフォーマンスを実証し、汎用性を高めています。
広範な定性的および定量的評価により、Gaga が最先端の手法に対して有利に機能することが実証され、シーンの理解や操作などの実世界のアプリケーションに対する可能性が強調されています。
要約(オリジナル)
We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot segmentation models. Contrasted to prior 3D scene segmentation approaches that heavily rely on video object tracking, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot segmentation models, enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as scene understanding and manipulation.
arxiv情報
著者 | Weijie Lyu,Xueting Li,Abhijit Kundu,Yi-Hsuan Tsai,Ming-Hsuan Yang |
発行日 | 2024-04-11 17:57:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google