UNMuTe: Unifying Navigation and Multimodal Dialogue-like Text Generation

要約

スマート自律エージェントは、ロボット工学や自律走行車など、現実のさまざまなアプリケーションにおいてますます重要になっています。
これらのエージェントが持つ必要がある重要なスキルの 1 つは、他のエージェントや人間などの周囲のエンティティと対話する能力です。
この研究では、自然言語でオラクル (または人間) と対話し、ナビゲーション パフォーマンスが不明な場合に道を尋ねながら、環境内を効率的にナビゲートできるインテリジェント エージェントを構築することを目指しています。
インタラクションは、質問を生成するエージェントによって開始され、その後、目標への最短軌道に基づいてオラクルによって質問に回答されます。
このプロセスはナビゲーション中に複数回実行できるため、エージェントはオラクルと対話できるようになります。
この目的を達成するために、我々は UNMuTe という名前の新しい計算モデルを提案します。このモデルは、対話モデルとナビゲーターの 2 つの主要コンポーネントで構成されます。
具体的には、対話モデルは、テキストと画像の両方で構成されるマルチモーダル データを処理する GPT-2 デコーダーに基づいています。
まず、対話モデルは質問と回答のペアを生成するようにトレーニングされます。質問は現在の画像を使用して生成され、回答は目標に向かう途中の将来の画像を活用して生成されます。
その後、VLN モデルは、ナビゲーション アクションを予測する対話に従うか、助けが必要な場合に対話モデルをトリガーするようにトレーニングされます。
私たちの実験分析では、UNMuTeが対話を暗示する主要なナビゲーションタスク、すなわち協調ビジョンと対話ナビゲーション(CVDN)および対話履歴からのナビゲーション(NDH)で最先端のパフォーマンスを達成していることを示し、私たちのアプローチが効果的であることを証明しています。
ナビゲーションをガイドするための有用な質問と回答を生成します。

要約(オリジナル)

Smart autonomous agents are becoming increasingly important in various real-life applications, including robotics and autonomous vehicles. One crucial skill that these agents must possess is the ability to interact with their surrounding entities, such as other agents or humans. In this work, we aim at building an intelligent agent that can efficiently navigate in an environment while being able to interact with an oracle (or human) in natural language and ask for directions when it is unsure about its navigation performance. The interaction is started by the agent that produces a question, which is then answered by the oracle on the basis of the shortest trajectory to the goal. The process can be performed multiple times during navigation, thus enabling the agent to hold a dialogue with the oracle. To this end, we propose a novel computational model, named UNMuTe, that consists of two main components: a dialogue model and a navigator. Specifically, the dialogue model is based on a GPT-2 decoder that handles multimodal data consisting of both text and images. First, the dialogue model is trained to generate question-answer pairs: the question is generated using the current image, while the answer is produced leveraging future images on the path toward the goal. Subsequently, a VLN model is trained to follow the dialogue predicting navigation actions or triggering the dialogue model if it needs help. In our experimental analysis, we show that UNMuTe achieves state-of-the-art performance on the main navigation tasks implying dialogue, i.e. Cooperative Vision and Dialogue Navigation (CVDN) and Navigation from Dialogue History (NDH), proving that our approach is effective in generating useful questions and answers to guide navigation.

arxiv情報

著者 Niyati Rawal,Roberto Bigazzi,Lorenzo Baraldi,Rita Cucchiara
発行日 2024-08-08 12:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク