要約
人間と対話し、その世界で行動するために、エージェントは人々が使用する言語の範囲を理解し、それを視覚的な世界に関連付ける必要があります。
現在のエージェントは単純な言語命令の実行を学習できますが、私たちは、一般知識を伝えたり、状態を説明したりする、多様な言語 (「このボタンでテレビがつきます」や「ボウルを片付けます」などの言語) を活用するエージェントを構築することを目指しています。
インタラクティブなフィードバックなどを提供します。
私たちの重要なアイデアは、エージェントがこのような多様な言語を、将来を予測するのに役立つ信号として解釈する必要があるということです。つまり、何を観察するか、世界がどのように行動するか、どのような状況で報酬が得られるかなどです。
この視点は、強力な自己教師あり学習目標として、言語理解と将来予測を統合します。
これを Dynalang でインスタンス化します。このエージェントは、マルチモーダルな世界モデルを学習して将来のテキストと画像の表現を予測し、想像上のモデルのロールアウトから行動することを学習します。
言語条件付きポリシーを学習する現在の手法は、言語の種類が多様になるとパフォーマンスが低下しますが、Dynalang は環境の説明、ゲーム ルール、指示を活用して、ゲームのプレイから写真のようにリアルなホーム スキャンの操作に至るまでのタスクで優れたパフォーマンスを発揮することを学習します。
最後に、私たちの方法が生成モデルの学習によって追加機能を可能にすることを示します。Dynalang はテキストのみのデータで事前トレーニングでき、オフライン データセットからの学習を可能にし、環境に基づいた言語を生成できます。
要約(オリジナル)
To interact with humans and act in the world, agents need to understand the range of language that people use and relate it to the visual world. While current agents can learn to execute simple language instructions, we aim to build agents that leverage diverse language — language like ‘this button turns on the TV’ or ‘I put the bowls away’ — that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that agents should interpret such diverse language as a signal that helps them predict the future: what they will observe, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We instantiate this in Dynalang, an agent that learns a multimodal world model to predict future text and image representations, and learns to act from imagined model rollouts. While current methods that learn language-conditioned policies degrade in performance with more diverse types of language, we show that Dynalang learns to leverage environment descriptions, game rules, and instructions to excel on tasks ranging from game-playing to navigating photorealistic home scans. Finally, we show that our method enables additional capabilities due to learning a generative model: Dynalang can be pretrained on text-only data, enabling learning from offline datasets, and generate language grounded in an environment.
arxiv情報
著者 | Jessy Lin,Yuqing Du,Olivia Watkins,Danijar Hafner,Pieter Abbeel,Dan Klein,Anca Dragan |
発行日 | 2024-05-31 15:32:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google