S-EQA: Tackling Situational Queries in Embodied Question Answering

要約

私たちは、家庭環境における状況質問 (S-EQA) を伴う身体的質問応答 (EQA) の問題を提示し、それに取り組みます。
ターゲット オブジェクトとそれに関連する定量化可能なプロパティを直接参照する単純なクエリに取り組む以前の EQA の作業とは異なり、状況に応じたクエリ (「バスルームは清潔で乾燥していますか?」など) を使用する EQA は、エージェントが単に対象物を理解する必要があるだけでなく、状況に応じたクエリを理解する必要があるため、より困難です。
クエリに関連するターゲット オブジェクトは存在しますが、応答可能であるためにはその状態についてのコンセンサスも必要です。
この目的に向けて、最初に、LLM の出力をラップして、固有の状況クエリ、対応するコンセンサス オブジェクト情報、および予測された回答のデータセットを作成する新しい Prompt-Generate-Evaluate (PGE) スキームを導入します。
PGE は、複数の形式の意味的類似性を使用して、生成されたクエリ間の一意性を維持します。
私たちは、M-Turk で実施された大規模なユーザー調査を通じて生成されたデータセットを検証し、それを状況クエリで EQA に取り組む最初のデータセットである S-EQA として導入しました。
当社のユーザー調査では、コンセンサスオブジェクトデータを考慮すると、生成されたクエリの 97.26% という高い割合で回答可能であると見なされ、S-EQA の信頼性が確立されました。
逆に、LLM が予測した回答と人間が評価した回答では、46.2% という低い相関関係が観察されます。
これは、状況に応じたクエリに直接応答する LLM の能力が低いことを示していますが、間接的な解決策について人間が検証したコンセンサスを提供するという S-EQA の有用性を確立しています。
私たちは、VirtualHome 上の Visual Question Answering (VQA) を介して S-EQA を評価します。これには、他のシミュレーターとは異なり、変更可能な状態を持ついくつかのオブジェクトが含まれており、変更すると視覚的にも異なって見えるため、S-EQA の定量的なベンチマークを設定することができます。
私たちの知る限り、これは状況に応じたクエリを使用して EQA を導入した最初の作品であり、クエリ作成に生成的アプローチを使用した最初の作品でもあります。

要約(オリジナル)

We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and quantifiable properties pertaining them, EQA with situational queries (such as ‘Is the bathroom clean and dry?’) is more challenging, as the agent needs to figure out not just what the target objects pertaining to the query are, but also requires a consensus on their states to be answerable. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM’s output to create a dataset of unique situational queries, corresponding consensus object information, and predicted answers. PGE maintains uniqueness among the generated queries, using multiple forms of semantic similarity. We validate the generated dataset via a large scale user-study conducted on M-Turk, and introduce it as S-EQA, the first dataset tackling EQA with situational queries. Our user study establishes the authenticity of S-EQA with a high 97.26% of the generated queries being deemed answerable, given the consensus object data. Conversely, we observe a low correlation of 46.2% on the LLM-predicted answers to human-evaluated ones; indicating the LLM’s poor capability in directly answering situational queries, while establishing S-EQA’s usability in providing a human-validated consensus for an indirect solution. We evaluate S-EQA via Visual Question Answering (VQA) on VirtualHome, which unlike other simulators, contains several objects with modifiable states that also visually appear different upon modification — enabling us to set a quantitative benchmark for S-EQA. To the best of our knowledge, this is the first work to introduce EQA with situational queries, and also the first to use a generative approach for query creation.

arxiv情報

著者 Vishnu Sashank Dorbala,Prasoon Goyal,Robinson Piramuthu,Michael Johnston,Dinesh Manocha,Reza Ghanadhan
発行日 2024-05-08 00:45:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク