要約
私たちは、DINO、SAM、CLIP などのビジョン基盤モデルの機能を 3D タスクに拡張するという問題に取り組みます。
具体的には、2D 画像の特徴を 3D ガウス スプラッティング シーンに引き上げる新しい方法を導入します。
再構成損失の最小化に依存する従来のアプローチとは異なり、私たちの方法では、グラフ拡散メカニズムによって強化された、よりシンプルで効率的な特徴集約手法が採用されています。
グラフ拡散は、3D ジオメトリと、DINOv2 などの別の強力なモデルによって引き起こされるペアごとの類似性を活用することにより、CLIP などの特定のモデルからの特徴を強化します。
私たちのアプローチは、大幅な高速化を実現しながら、複数のダウンストリーム タスクで最先端のパフォーマンスに匹敵するパフォーマンスを実現します。
特に、DINOv2 は SAM のような何百万もの注釈付きセグメンテーション マスクでトレーニングされていないにもかかわらず、汎用の DINOv2 機能を使用して競合するセグメンテーション結果が得られています。
CLIP 機能に適用すると、私たちの方法はオープン語彙オブジェクト検出タスクで強力なパフォーマンスを示し、私たちのアプローチの多用途性が強調されます。
要約(オリジナル)
We address the problem of extending the capabilities of vision foundation models such as DINO, SAM, and CLIP, to 3D tasks. Specifically, we introduce a novel method to uplift 2D image features into 3D Gaussian Splatting scenes. Unlike traditional approaches that rely on minimizing a reconstruction loss, our method employs a simpler and more efficient feature aggregation technique, augmented by a graph diffusion mechanism. Graph diffusion enriches features from a given model, such as CLIP, by leveraging 3D geometry and pairwise similarities induced by another strong model such as DINOv2. Our approach achieves performance comparable to the state of the art on multiple downstream tasks while delivering significant speed-ups. Notably, we obtain competitive segmentation results using generic DINOv2 features, despite DINOv2 not being trained on millions of annotated segmentation masks like SAM. When applied to CLIP features, our method demonstrates strong performance in open-vocabulary object detection tasks, highlighting the versatility of our approach.
arxiv情報
著者 | Juliette Marrie,Romain Menegaux,Michael Arbel,Diane Larlus,Julien Mairal |
発行日 | 2024-12-06 15:39:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google