AP-VLM: Active Perception Enabled by Vision-Language Models


この論文では、能動的な知覚と視覚言語モデル (VLM) を組み合わせて、ロボットによる探索をガイドし、意味論的なクエリに答える新しいフレームワークである AP-VLM について紹介します。
AP-VLM では、シーンにオーバーレイされた 3D 仮想グリッドと方向調整を使用して、ロボット マニピュレータが最適な視点と方向をインテリジェントに選択して、遮蔽された位置や傾斜した位置にあるオブジェクトの識別などの困難なタスクを解決できるようにします。
私たちは、7 自由度の Franka Panda と 6 自由度の UR5 という 2 つのロボット プラットフォーム上で、オブジェクト構成が異なるさまざまなシーンでシステムを評価しました。
私たちの結果は、AP-VLM が、特に固定カメラ ビューが不十分なシナリオにおいて、Toward Ground Common Sense Reasoning (TGCSR) などの受動的知覚手法やベースライン モデルよりも大幅に優れていることを示しています。
現実世界の設定における AP-VLM の適応性は、複雑な環境に対するロボット システムの理解を強化し、高レベルの意味論的推論と低レベルの制御の間のギャップを埋める可能性を示しています。


Active perception enables robots to dynamically gather information by adjusting their viewpoints, a crucial capability for interacting with complex, partially observable environments. In this paper, we present AP-VLM, a novel framework that combines active perception with a Vision-Language Model (VLM) to guide robotic exploration and answer semantic queries. Using a 3D virtual grid overlaid on the scene and orientation adjustments, AP-VLM allows a robotic manipulator to intelligently select optimal viewpoints and orientations to resolve challenging tasks, such as identifying objects in occluded or inclined positions. We evaluate our system on two robotic platforms: a 7-DOF Franka Panda and a 6-DOF UR5, across various scenes with differing object configurations. Our results demonstrate that AP-VLM significantly outperforms passive perception methods and baseline models, including Toward Grounded Common Sense Reasoning (TGCSR), particularly in scenarios where fixed camera views are inadequate. The adaptability of AP-VLM in real-world settings shows promise for enhancing robotic systems’ understanding of complex environments, bridging the gap between high-level semantic reasoning and low-level control.


著者 Venkatesh Sripada,Samuel Carter,Frank Guerin,Amir Ghalamzan
発行日 2024-09-26 08:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク