要約
視覚世界で自然言語を介して人間と対話できるロボットを構築することは、ロボット工学の分野において大きな課題となります。
この課題を克服するために、人間が投げかけた質問に応じて、これまで目に見えなかった環境を移動する物体を識別する能力を測定するベンチマーク タスクとして、身体的質問応答 (EQA) が提案されています。
いくつかの方法が提案されていますが、それらの評価はシミュレーションに限定されており、現実世界のシナリオでの実験は行われていません。
さらに、これらの方法はすべて、質問と回答の対話の語彙が限られているため、実際のアプリケーションには適していません。
この研究では、実際のロボットがフロンティアベースのマップ作成を通じて未知の環境をナビゲートし、オープンボキャブラリーをサポートする基礎モデルを使用して未知の QA ペアに対処できるようにする、マップベースのモジュラー EQA 手法を提案します。
Matterport 3D (MP3D) 上の以前の EQA データセットの質問とは異なり、実際の実験での質問には、トレーニング データには含まれていないさまざまな質問形式と語彙が含まれています。
仮想環境 (MP3D-EQA) と 2 つの現実世界の住宅環境で包括的な実験を行い、本手法が現実世界でも EQA を実行できることを実証します。
要約(オリジナル)
Building robots capable of interacting with humans through natural language in the visual world presents a significant challenge in the field of robotics. To overcome this challenge, Embodied Question Answering (EQA) has been proposed as a benchmark task to measure the ability to identify an object navigating through a previously unseen environment in response to human-posed questions. Although some methods have been proposed, their evaluations have been limited to simulations, without experiments in real-world scenarios. Furthermore, all of these methods are constrained by a limited vocabulary for question-and-answer interactions, making them unsuitable for practical applications. In this work, we propose a map-based modular EQA method that enables real robots to navigate unknown environments through frontier-based map creation and address unknown QA pairs using foundation models that support open vocabulary. Unlike the questions of the previous EQA dataset on Matterport 3D (MP3D), questions in our real-world experiments contain various question formats and vocabularies not included in the training data. We conduct comprehensive experiments on virtual environments (MP3D-EQA) and two real-world house environments and demonstrate that our method can perform EQA even in the real world.
arxiv情報
著者 | Koya Sakamoto,Daichi Azuma,Taiki Miyanishi,Shuhei Kurita,Motoaki Kawanabe |
発行日 | 2024-05-26 13:10:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google