R2H: Building Multimodal Navigation Helpers that Respond to Help

要約

インテリジェント エージェントにとって、ナビゲーション タスク中に支援的な役割で人間を支援する能力は非常に重要です。
環境知識と会話能力を備えたこのようなエージェントは、周囲の視覚情報に基づいて、問い合わせに対する自然言語の応答を生成することで、不慣れな地形を案内することができます。
ただし、これらのマルチモーダル会話ナビゲーション ヘルパーはまだ開発が不十分です。
このペーパーでは、既存のダイアログベースの具体化されたデータセットに基づいて、ヘルプに応答できるマルチモーダル ナビゲーション ヘルパーを構築するための新しいベンチマークである Respond to Help (R2H) を提案します。
R2H には主に 2 つのタスクが含まれます。(1) ヘルパー エージェントが特定のダイアログ履歴に基づいて有益な応答を生成する能力を評価するダイアログ履歴への応答 (RDH)、および (2) ヘルパー エージェントの対話中の応答 (RdI)
リアルタイムでのナビゲーション中にタスク実行エージェントとの効果的かつ一貫した連携を維持する能力。
さらに、具体化されたタスクでタスク実行者をガイドするナビゲーション ヘルパーとして、SeeRee と名付けられた、見て応答できる新しいタスク指向のマルチモーダル応答生成モデルを提案します。
自動評価と人間による評価の両方を通じて、SeeRee はさまざまなナビゲーション タスクでタスク実行者を支援する際に、ベースラインの方法よりも効果的で有益な応答を生成することを示します。
プロジェクトの Web サイト: https://sites.google.com/view/respond2help/home。

要約(オリジナル)

The ability to assist humans during a navigation task in a supportive role is crucial for intelligent agents. Such agents, equipped with environment knowledge and conversational abilities, can guide individuals through unfamiliar terrains by generating natural language responses to their inquiries, grounded in the visual information of their surroundings. However, these multimodal conversational navigation helpers are still underdeveloped. This paper proposes a new benchmark, Respond to Help (R2H), to build multimodal navigation helpers that can respond to help, based on existing dialog-based embodied datasets. R2H mainly includes two tasks: (1) Respond to Dialog History (RDH), which assesses the helper agent’s ability to generate informative responses based on a given dialog history, and (2) Respond during Interaction (RdI), which evaluates the helper agent’s ability to maintain effective and consistent cooperation with a task performer agent during navigation in real-time. Furthermore, we propose a novel task-oriented multimodal response generation model that can see and respond, named SeeRee, as the navigation helper to guide the task performer in embodied tasks. Through both automatic and human evaluations, we show that SeeRee produces more effective and informative responses than baseline methods in assisting the task performer with different navigation tasks. Project website: https://sites.google.com/view/respond2help/home.

arxiv情報

著者 Yue Fan,Kaizhi Zheng,Jing Gu,Xin Eric Wang
発行日 2023-05-23 17:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク