Learning by Asking for Embodied Visual Navigation and Task Completion

要約

研究コミュニティは、人間がタスクを遂行するのを支援できるインテリジェントな具現化エージェントの設計への関心が高まっていることを示しています。
関連する視覚言語ベンチマークの最近の進歩にもかかわらず、以前のほとんどの研究は、具体化された環境で自然に発生するあいまいさを積極的に解決するためにエージェントに質問をする能力を与えるのではなく、指示に従うエージェントの構築に焦点を当てていました。
エンボディド エージェントに人間と対話する能力を与えるために、この作業では、タスクを完了するための追加情報を動的に取得するために、いつ、どのような質問をするかを学習する ELBA (Embodied Learning-By-Asking) モデルを提案します。
TEACHビジョンダイアログナビゲーションとタスク完了データセットでモデルを評価します。
実験結果は、質問応答機能のないベースライン モデルと比較して、ELBA が改善されたタスク パフォーマンスを達成することを示しています。

要約(オリジナル)

The research community has shown increasing interest in designing intelligent embodied agents that can assist humans in accomplishing tasks. Despite recent progress on related vision-language benchmarks, most prior work has focused on building agents that follow instructions rather than endowing agents the ability to ask questions to actively resolve ambiguities arising naturally in embodied environments. To empower embodied agents with the ability to interact with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA) model that learns when and what questions to ask to dynamically acquire additional information for completing the task. We evaluate our model on the TEACH vision-dialog navigation and task completion dataset. Experimental results show that ELBA achieves improved task performance compared to baseline models without question-answering capabilities.

arxiv情報

著者 Ying Shen,Ismini Lourentzou
発行日 2023-02-09 18:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク