HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models

要約

自然言語を通じて人間と対話するロボットは、Referring Grasp Synthesis (RGS) などの数多くのアプリケーションのロックを解除できます。
テキスト クエリが与えられると、RGS はロボットのワークスペース内の参照オブジェクトを操作するための安定した把握ポーズを決定します。
RGS は、視覚的なグラウンディングと把握ポーズの推定という 2 つのステップで構成されます。
最近の研究では、現実世界のロボット実行における自由に流れる自然言語を視覚的に基礎付けるために、強力なビジョン言語モデル (VLM) を活用しています。
ただし、同じオブジェクトの複数のインスタンスがある複雑で乱雑な環境での比較は不十分です。
この論文では、画像とテキストの埋め込みを融合するFeaturewise Linear Modulation (FiLM) の階層的アプリケーションを特徴とする HiFi-CS を紹介し、ロボットによる把握で遭遇する複雑な属性のリッチ テキスト クエリに対する視覚的な基盤を強化します。
視覚的グラウンディングは、2D/3D 空間内のオブジェクトと自然言語入力を関連付け、クローズド語彙とオープン語彙という 2 つのシナリオで研究されます。
HiFi-CS は、フローズン VLM と組み合わせた軽量デコーダを備えており、サイズが 100 分の 1 でありながら、クローズドボキャブラリ設定で競合ベースラインを上回るパフォーマンスを発揮します。
私たちのモデルは、GroundedSAM のようなオープンセット オブジェクト検出器を効果的にガイドして、オープン語彙のパフォーマンスを向上させることができます。
7 自由度ロボット アームを使用した実際の RGS 実験を通じてアプローチを検証し、15 のテーブルトップ シーンで 90.33\% の視覚的接地精度を達成しました。
コードベースは補足資料に含まれています。

要約(オリジナル)

Robots interacting with humans through natural language can unlock numerous applications such as Referring Grasp Synthesis (RGS). Given a text query, RGS determines a stable grasp pose to manipulate the referred object in the robot’s workspace. RGS comprises two steps: visual grounding and grasp pose estimation. Recent studies leverage powerful Vision-Language Models (VLMs) for visually grounding free-flowing natural language in real-world robotic execution. However, comparisons in complex, cluttered environments with multiple instances of the same object are lacking. This paper introduces HiFi-CS, featuring hierarchical application of Featurewise Linear Modulation (FiLM) to fuse image and text embeddings, enhancing visual grounding for complex attribute rich text queries encountered in robotic grasping. Visual grounding associates an object in 2D/3D space with natural language input and is studied in two scenarios: Closed and Open Vocabulary. HiFi-CS features a lightweight decoder combined with a frozen VLM and outperforms competitive baselines in closed vocabulary settings while being 100x smaller in size. Our model can effectively guide open-set object detectors like GroundedSAM to enhance open-vocabulary performance. We validate our approach through real-world RGS experiments using a 7-DOF robotic arm, achieving 90.33\% visual grounding accuracy in 15 tabletop scenes. We include our codebase in the supplementary material.

arxiv情報

著者 Vineet Bhat,Prashanth Krishnamurthy,Ramesh Karri,Farshad Khorrami
発行日 2024-09-16 15:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク