Scene Exploration by Vision-Language Models

要約

アクティブな知覚により、ロボットは視点を調整することにより情報を動的に収集できます。これは、複雑で部分的に観察可能な環境と相互作用するための重要な能力です。
この論文では、アクティブな知覚とビジョン言語モデル(VLM)を組み合わせてロボット探査とセマンティッククエリに答える新しいフレームワークであるAP-VLMを紹介します。
AP-VLMは、シーンとオリエンテーションの調整でオーバーレイされた3D仮想グリッドを使用して、ロボットマニピュレーターが最適な視点と方向をインテリジェントに選択して、閉塞または傾斜した位置のオブジェクトを識別するなどの挑戦的なタスクを解決できるようにします。
オブジェクト構成が異なるさまざまなシーンで、7ドフランカパンダと6ドフのUR5の2つのロボットプラットフォームでシステムを評価します。
我々の結果は、AP-VLMが、特に固定カメラビューが不十分なシナリオで、接地された常識推論(TGCSR)に向けて、受動的知覚方法とベースラインモデルを大幅に上回ることを示しています。
現実世界の設定におけるAP-VLMの適応性は、複雑な環境のロボットシステムの理解を強化し、高レベルのセマンティック推論と低レベルの制御の間のギャップを埋めることを期待しています。

要約(オリジナル)

Active perception enables robots to dynamically gather information by adjusting their viewpoints, a crucial capability for interacting with complex, partially observable environments. In this paper, we present AP-VLM, a novel framework that combines active perception with a Vision-Language Model (VLM) to guide robotic exploration and answer semantic queries. Using a 3D virtual grid overlaid on the scene and orientation adjustments, AP-VLM allows a robotic manipulator to intelligently select optimal viewpoints and orientations to resolve challenging tasks, such as identifying objects in occluded or inclined positions. We evaluate our system on two robotic platforms: a 7-DOF Franka Panda and a 6-DOF UR5, across various scenes with differing object configurations. Our results demonstrate that AP-VLM significantly outperforms passive perception methods and baseline models, including Toward Grounded Common Sense Reasoning (TGCSR), particularly in scenarios where fixed camera views are inadequate. The adaptability of AP-VLM in real-world settings shows promise for enhancing robotic systems’ understanding of complex environments, bridging the gap between high-level semantic reasoning and low-level control.

arxiv情報

著者 Venkatesh Sripada,Samuel Carter,Frank Guerin,Amir Ghalamzan
発行日 2025-06-09 11:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク