要約
ジェネラリスト エージェントの開発は、人工知能における長年の目標です。
さまざまなタスクからの広範なオフライン データセットを利用したこれまでの取り組みでは、強化学習内のマルチタスク シナリオで顕著なパフォーマンスが実証されました。
ただし、これらの作品は、その機能を新しいタスクに拡張する際に課題に直面しています。
最近のアプローチでは、テキストによるガイダンスや視覚的な軌跡を意思決定ネットワークに統合して、タスク固有の状況に応じた手がかりを提供し、有望な方向性を示しています。
ただし、テキストによるガイダンスや視覚的な軌跡のみに依存するだけでは、タスクのコンテキスト情報を正確に伝えるには不十分であることが観察されています。
このペーパーでは、エージェント向けのタスク ガイダンスの強化された形式を検討し、エージェントがゲームプレイの指示を理解できるようにし、それによって「読み上げてプレイ」機能を促進します。
視覚タスクにおけるマルチモーダル命令チューニングの成功からインスピレーションを得て、ビジュアルベースの RL タスクを長期ビジョン タスクとして扱い、命令チューニングを意思決定変換器に組み込むためのマルチモーダル ゲーム命令のセットを構築します。
実験結果は、マルチモーダル ゲーム命令を組み込むと、意思決定トランスフォーマーのマルチタスク機能と一般化機能が大幅に強化されることを示しています。
要約(オリジナル)
Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a ‘read-to-play’ capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer’s multitasking and generalization capabilities.
arxiv情報
著者 | Yonggang Jin,Ge Zhang,Hao Zhao,Tianyu Zheng,Jarvi Guo,Liuyu Xiang,Shawn Yue,Stephen W. Huang,Zhaofeng He,Jie Fu |
発行日 | 2024-11-18 15:31:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google