Multitask Multimodal Prompted Training for Interactive Embodied Task Completion

要約

インタラクティブで具体化されたタスクは、既存の視覚と言語 (VL) モデルに少なくとも 2 つの根本的な課題をもたらします。1 つは、1) 行動と観察の軌跡における基礎的な言語、2) 参照の曖昧さの解消です。
これらの課題に取り組むために、私たちはエンボディド マルチモーダル エージェント (EMMA) を提案します。これは、画像と軌跡を推論し、マルチモーダル テキスト生成としてアクション予測を行う統合エンコーダー/デコーダー モデルです。
すべてのタスクをテキスト生成として統合することで、EMMA はタスク間での転送を容易にするアクションの言語を学習します。
独立してトレーニングされたコンポーネントを使用した以前のモジュール型アプローチとは異なり、各タスクが目標の完了に貢献する単一のマルチタスク モデルを使用します。
EMMA は、いくつかの VL ベンチマークで同様のモデルと同等のパフォーマンスを示し、ダイアログ ガイド付きタスク完了 (DTC) で新しい最先端のパフォーマンス (成功率 36.81%) を記録しました。DTC は、ダイアログ ガイド付きエージェントを評価するためのベンチマークです。
アレクサ・アリーナ

要約(オリジナル)

Interactive and embodied tasks pose at least two fundamental challenges to existing Vision & Language (VL) models, including 1) grounding language in trajectories of actions and observations, and 2) referential disambiguation. To tackle these challenges, we propose an Embodied MultiModal Agent (EMMA): a unified encoder-decoder model that reasons over images and trajectories, and casts action prediction as multimodal text generation. By unifying all tasks as text generation, EMMA learns a language of actions which facilitates transfer across tasks. Different to previous modular approaches with independently trained components, we use a single multitask model where each task contributes to goal completion. EMMA performs on par with similar models on several VL benchmarks and sets a new state-of-the-art performance (36.81% success rate) on the Dialog-guided Task Completion (DTC), a benchmark to evaluate dialog-guided agents in the Alexa Arena

arxiv情報

著者 Georgios Pantazopoulos,Malvina Nikandrou,Amit Parekh,Bhathiya Hemanthage,Arash Eshghi,Ioannis Konstas,Verena Rieser,Oliver Lemon,Alessandro Suglia
発行日 2023-11-07 15:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク