ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) とロボット システムの統合により、自然言語命令を理解して実行するロボットの能力は大幅に向上しましたが、ロボット特有の知識が不足しているため、操作タスクにおけるロボットのパフォーマンスは依然として限定的です。
従来の MLLM は通常、一般的な画像とテキストのペアでトレーニングされるため、操作に不可欠なアフォーダンスや物理概念の理解が不十分です。
このギャップに対処するために、ビジュアル質問応答 (VQA) 形式を通じて MLLM に操作中心の知識を注入する新しいフレームワークである ManipVQA を提案します。
このアプローチには、ツールの検出、アフォーダンス認識、および物理概念のより広範な理解が含まれます。
私たちは、ツールの検出、アフォーダンス予測、物理概念の理解におけるロボットの理解に挑戦するために、インタラクティブなオブジェクトを描いた画像の多様なデータセットを厳選しました。
このロボット工学特有の知識を MLLM に固有のビジョン推論機能と効果的に統合するために、私たちは統一された VQA フォーマットを活用し、微調整戦略を考案します。
この戦略では、元の視覚推論能力を維持しながら、新たに獲得したロボットの洞察を組み込みます。
ロボット シミュレータおよびさまざまなビジョン タスク ベンチマークで実施された実証評価により、ManipVQA の堅牢なパフォーマンスが実証されています。
コードとデータセットは https://github.com/SiyuanHuang95/ManipVQA で公開されています。

要約(オリジナル)

While the integration of Multi-modal Large Language Models (MLLMs) with robotic systems has significantly improved robots’ ability to understand and execute natural language instructions, their performance in manipulation tasks remains limited due to a lack of robotics-specific knowledge. Conventional MLLMs are typically trained on generic image-text pairs, leaving them deficient in understanding affordances and physical concepts crucial for manipulation. To address this gap, we propose ManipVQA, a novel framework that infuses MLLMs with manipulation-centric knowledge through a Visual Question-Answering (VQA) format. This approach encompasses tool detection, affordance recognition, and a broader understanding of physical concepts. We curated a diverse dataset of images depicting interactive objects, to challenge robotic understanding in tool detection, affordance prediction, and physical concept comprehension. To effectively integrate this robotics-specific knowledge with the inherent vision-reasoning capabilities of MLLMs, we leverage a unified VQA format and devise a fine-tuning strategy. This strategy preserves the original vision-reasoning abilities while incorporating the newly acquired robotic insights. Empirical evaluations conducted in robotic simulators and across various vision task benchmarks demonstrate the robust performance of ManipVQA. The code and dataset are publicly available at https://github.com/SiyuanHuang95/ManipVQA.

arxiv情報

著者 Siyuan Huang,Iaroslav Ponomarenko,Zhengkai Jiang,Xiaoqi Li,Xiaobin Hu,Peng Gao,Hongsheng Li,Hao Dong
発行日 2024-08-22 13:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク