要約
自然言語を物理世界に根付かせることは、コンピュータ ビジョンやロボット工学の幅広い用途で広く普及しているテーマです。
最近では、CLIP などの 2D 視覚言語モデルが広く普及しています。これは、2D 画像にオープンな語彙を基礎付ける優れた機能があるためです。
最近の研究は、特徴の蒸留によって 2D CLIP 特徴を 3D に高めることを目的としていますが、シーン固有であるため一般化が欠けているニューラル フィールドを学習するか、複数のカメラ ビューへのアクセスを必要とする室内のスキャン データに焦点を当てるかのどちらかであり、これはロボットでは現実的ではありません。
操作シナリオ。
さらに、関連する方法は通常、ピクセル レベルで特徴を融合し、すべてのカメラ ビューが同等の情報を提供すると仮定します。
この研究では、このアプローチが、グラウンディングの精度とセグメンテーションの鮮明さの両方の点で、次善の 3D 特徴をもたらすことを示します。
これを軽減するために、オブジェクト中心の事前分布を使用して意味情報に基づいて有益でないビューを排除し、インスタンス セグメンテーション マスクを介してオブジェクト レベルで特徴を融合するマルチビュー特徴融合戦略を提案します。
オブジェクト中心の 3D 機能を抽出するために、雑然としたテーブルトップ シーンの大規模な合成マルチビュー データセットを生成し、3,300 を超える一意のオブジェクト インスタンスから 15,000 のシーンを生成し、一般公開しています。
私たちの方法は、シングルビューRGB-Dから再構築しながら、接地能力と空間的一貫性が改善された3D CLIP特徴を再構築するため、テスト時の複数のカメラビューの仮定から逸脱していることを示します。
最後に、私たちのアプローチが新しいテーブルトップ領域に一般化でき、微調整することなく 3D インスタンスのセグメンテーションに再利用できることを示し、乱雑な環境での言語ガイドによるロボットによる把握の有用性を実証します。
要約(オリジナル)
Grounding natural language to the physical world is a ubiquitous topic with a wide range of applications in computer vision and robotics. Recently, 2D vision-language models such as CLIP have been widely popularized, due to their impressive capabilities for open-vocabulary grounding in 2D images. Recent works aim to elevate 2D CLIP features to 3D via feature distillation, but either learn neural fields that are scene-specific and hence lack generalization, or focus on indoor room scan data that require access to multiple camera views, which is not practical in robot manipulation scenarios. Additionally, related methods typically fuse features at pixel-level and assume that all camera views are equally informative. In this work, we show that this approach leads to sub-optimal 3D features, both in terms of grounding accuracy, as well as segmentation crispness. To alleviate this, we propose a multi-view feature fusion strategy that employs object-centric priors to eliminate uninformative views based on semantic information, and fuse features at object-level via instance segmentation masks. To distill our object-centric 3D features, we generate a large-scale synthetic multi-view dataset of cluttered tabletop scenes, spawning 15k scenes from over 3300 unique object instances, which we make publicly available. We show that our method reconstructs 3D CLIP features with improved grounding capacity and spatial consistency, while doing so from single-view RGB-D, thus departing from the assumption of multiple camera views at test time. Finally, we show that our approach can generalize to novel tabletop domains and be re-purposed for 3D instance segmentation without fine-tuning, and demonstrate its utility for language-guided robotic grasping in clutter
arxiv情報
著者 | Georgios Tziafas,Yucheng Xu,Zhibin Li,Hamidreza Kasaei |
発行日 | 2024-07-15 14:23:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google