要約
我々は、身体的質問応答 (EQA) の問題を検討します。これは、ロボットなどの身体的エージェントが、質問に対する答えに自信を持てるまで、環境を積極的に探索して情報を収集する必要がある設定を指します。
この研究では、大規模なビジョン言語モデル (VLM) の強力な意味論的推論機能を活用して、そのような質問を効率的に調査して回答します。
ただし、EQA で VLM を使用する場合は、主に 2 つの課題があります。1 つは、時間の経過とともに探索する方法を計画できるようにシーンをマッピングするための内部メモリを持たないことと、VLM の信頼度が誤って調整される可能性があり、ロボットが探索を途中で停止する可能性があることです。
または探索しすぎます。
我々は、探索のためにシーンの関連領域に関する膨大な知識を活用して、深度情報に基づいて VLM の視覚的プロンプトを介してシーンのセマンティック マップを最初に構築する方法を提案します。
次に、等角予測を使用して VLM の質問応答の信頼度を調整し、ロボットが探索をいつ停止するかを認識できるようにします。これにより、より調整された効率的な探索戦略が実現します。
シミュレーションでフレームワークをテストするために、Habitat-Matterport 3D Research Dataset (HM3D) に基づいて構築された、多様で現実的な人間とロボットのシナリオとシーンを含む新しい EQA データセットも提供します。
シミュレートされたロボット実験と実際のロボット実験の両方で、私たちが提案したアプローチが、探索に VLM を利用しない、またはその信頼性を調整しないベースラインよりもパフォーマンスと効率が向上することが示されています。
実験ビデオとコードを含む Web ページ: https://explore-eqa.github.io/
要約(オリジナル)
We consider the problem of Embodied Question Answering (EQA), which refers to settings where an embodied agent such as a robot needs to actively explore an environment to gather information until it is confident about the answer to a question. In this work, we leverage the strong semantic reasoning capabilities of large vision-language models (VLMs) to efficiently explore and answer such questions. However, there are two main challenges when using VLMs in EQA: they do not have an internal memory for mapping the scene to be able to plan how to explore over time, and their confidence can be miscalibrated and can cause the robot to prematurely stop exploration or over-explore. We propose a method that first builds a semantic map of the scene based on depth information and via visual prompting of a VLM – leveraging its vast knowledge of relevant regions of the scene for exploration. Next, we use conformal prediction to calibrate the VLM’s question answering confidence, allowing the robot to know when to stop exploration – leading to a more calibrated and efficient exploration strategy. To test our framework in simulation, we also contribute a new EQA dataset with diverse, realistic human-robot scenarios and scenes built upon the Habitat-Matterport 3D Research Dataset (HM3D). Both simulated and real robot experiments show our proposed approach improves the performance and efficiency over baselines that do no leverage VLM for exploration or do not calibrate its confidence. Webpage with experiment videos and code: https://explore-eqa.github.io/
arxiv情報
著者 | Allen Z. Ren,Jaden Clark,Anushri Dixit,Masha Itkina,Anirudha Majumdar,Dorsa Sadigh |
発行日 | 2024-07-07 19:40:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google