GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering

要約

身体的質問応答 (EQA) では、エージェントは、状況に応じた質問に自信を持って答えるために、目に見えない環境の意味的理解を探索し、発展させる必要があります。
有用な意味表現を取得し、これらの表現をオンラインで更新し、効率的な探索と計画のために以前の世界の知識を活用することが難しいため、これは依然としてロボット工学における困難な問題です。
これらの制限に対処することを目的として、我々は GraphEQA を提案します。これは、リアルタイム 3D メトリクスセマンティック シーン グラフ (3DSG) と、視覚言語モデル (VLM) を基礎にして EQA タスクを実行するためのマルチモーダル メモリとしてタスク関連画像を利用する新しいアプローチです。
目に見えない環境。
私たちは、3DSG の階層的な性質を利用して構造化された計画とセマンティックに基づいた探索を行う階層型計画アプローチを採用しています。
HM-EQA データセットでのシミュレーションと、家庭やオフィス環境での現実世界での実験を通じて、私たちの方法が、より高い成功率とより少ない計画手順で EQA タスクを完了することにより、主要なベースラインを上回るパフォーマンスを示すことを実証しました。

要約(オリジナル)

In Embodied Question Answering (EQA), agents must explore and develop a semantic understanding of an unseen environment in order to answer a situated question with confidence. This remains a challenging problem in robotics, due to the difficulties in obtaining useful semantic representations, updating these representations online, and leveraging prior world knowledge for efficient exploration and planning. Aiming to address these limitations, we propose GraphEQA, a novel approach that utilizes real-time 3D metric-semantic scene graphs (3DSGs) and task relevant images as multi-modal memory for grounding Vision-Language Models (VLMs) to perform EQA tasks in unseen environments. We employ a hierarchical planning approach that exploits the hierarchical nature of 3DSGs for structured planning and semantic-guided exploration. Through experiments in simulation on the HM-EQA dataset and in the real world in home and office environments, we demonstrate that our method outperforms key baselines by completing EQA tasks with higher success rates and fewer planning steps.

arxiv情報

著者 Saumya Saxena,Blake Buchanan,Chris Paxton,Bingqing Chen,Narunas Vaskevicius,Luigi Palmieri,Jonathan Francis,Oliver Kroemer
発行日 2024-12-19 03:04:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク