要約
大規模な言語モデル(LLM)は最近、ドメイン、タスク、言語(ChatGPTおよびGPT-4など)にわたって顕著な能力を実証し、人間のような認知能力を持つ一般的な自律剤の研究を復活させました。
LLMSでは、理論的基礎は依然として挑戦的な開かれた問題です。
この論文では、人間レベルの認知能力を持つ自律剤の迅速な創造を促進するためのガイダンスを提供する、新しい理論的認知アーキテクチャである統一マインドモデル(UMM)を提案します。
具体的には、UMMはグローバルワークスペース理論から始まり、さらにLLMSを活用して、マルチモーダル認識、計画、推論、ツールの使用、学習、記憶、反射、動機など、さまざまな認知能力を持つエージェントを可能にします。
次に、UMMに基づいて、エージェントビルディングエンジンMINDOSを開発します。これにより、ユーザーはプログラミングの努力なしでドメイン/タスク固有の自律エージェントをすばやく作成できます。
要約(オリジナル)
Large language models (LLMs) have recently demonstrated remarkable capabilities across domains, tasks, and languages (e.g., ChatGPT and GPT-4), reviving the research of general autonomous agents with human-like cognitive abilities.Such human-level agents require semantic comprehension and instruction-following capabilities, which exactly fall into the strengths of LLMs.Although there have been several initial attempts to build human-level agents based on LLMs, the theoretical foundation remains a challenging open problem. In this paper, we propose a novel theoretical cognitive architecture, the Unified Mind Model (UMM), which offers guidance to facilitate the rapid creation of autonomous agents with human-level cognitive abilities. Specifically, our UMM starts with the global workspace theory and further leverage LLMs to enable the agent with various cognitive abilities, such as multi-modal perception, planning, reasoning, tool use, learning, memory, reflection and motivation. Building upon UMM, we then develop an agent-building engine, MindOS, which allows users to quickly create domain-/task-specific autonomous agents without any programming effort.
arxiv情報
著者 | Pengbo Hu,Xiang Ying |
発行日 | 2025-03-05 12:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google