要約
汎用エージェントの構築は、人工知能の分野における長年のビジョンです。
既存のエージェントは多くの分野で目覚ましい進歩を遂げていますが、オープンワールドで長期的なタスクを完了するのに依然として苦労しています。
これは、長期にわたるさまざまなタスクを通じてエージェントを導くために必要な世界の知識とマルチモーダルな経験が欠如していることが原因であると考えられます。
この論文では、上記の課題に対処するためのハイブリッド マルチモーダル メモリ モジュールを提案します。
1) 知識を階層的有向ナレッジ グラフに変換し、エージェントが世界の知識を明示的に表現して学習できるようにします。2) 履歴情報を抽象化されたマルチモーダル エクスペリエンス プールに要約して、エージェントにコンテキスト内学習のための豊富な参照情報を提供します。
ハイブリッド マルチモーダル メモリ モジュールの上に、マルチモーダル エージェントである Optimus-1 が、専用の知識主導型プランナーと経験主導型リフレクターを備えて構築されており、Minecraft で長期にわたるタスクに直面した場合のより良い計画と反映に貢献します。
広範な実験結果により、Optimus-1 は、困難な長期タスクのベンチマークにおいて既存のすべてのエージェントを大幅に上回り、多くのタスクにおいて人間レベルに近いパフォーマンスを示すことが示されています。
さらに、Optimus-1 のバックボーンとしてさまざまなマルチモーダル大規模言語モデル (MLLM) を導入します。
実験結果は、Optimus-1 がハイブリッド マルチモーダル メモリ モジュールの助けにより強力な汎用性を示し、多くのタスクで GPT-4V ベースラインを上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.
arxiv情報
| 著者 | Zaijing Li,Yuquan Xie,Rui Shao,Gongwei Chen,Dongmei Jiang,Liqiang Nie |
| 発行日 | 2024-08-07 08:16:32+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google