要約
大規模言語モデル(LLM)をエージェントモデルとして直接利用し、対話的な計画タスクを実行する最近の試みは、称賛に値する結果を示している。しかし、その成果にもかかわらず、LLMは、「現実の」物理世界に対する理解が乏しいため、大域的な計画立案では脳を使わない試行錯誤に苦しみ、局所的な計画立案では幻覚的な行動を生成している。本論文では、タスクの前に大域的な事前知識を提供し、タスク中に局所的な動的知識を維持する人間の心的世界知識モデルを模倣し、エージェント計画を促進するためにパラメトリック世界知識モデル(WKM)を導入する。具体的には、エキスパートとサンプリングされた軌跡の両方から知識を自己合成するようにエージェントモデルを制御する。そして、WKMを発展させ、グローバルプランニングを導くための事前タスク知識と、ローカルプランニングを支援するための動的状態知識を提供する。Mistral-7B、Gemma-7B、Llama-3-8Bの3つのオープンソースLLMを用いた3つの複雑な実世界模擬データセットの実験結果から、本手法が様々な強力なベースラインと比較して優れた性能を達成できることを実証する。さらに、我々のWKMは、盲目的な試行錯誤や幻覚的な行動の問題を効果的に緩和し、エージェントの世界理解を強力にサポートすることができる。その他の興味深い発見は以下の通りである:1)我々のインスタンスレベルのタスク知識は、未知のタスクに対してより良く汎化できる、2)弱いWKMは、強いエージェントモデルのプランニングを導くことができる、3)統一的なWKMトレーニングは、さらなる発展の可能性を秘めている。コードはhttps://github.com/zjunlp/WKM。
要約(オリジナル)
Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the “real” physical world. Imitating humans’ mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent’s understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. The code is available at https://github.com/zjunlp/WKM.
arxiv情報
著者 | Shuofei Qiao,Runnan Fang,Ningyu Zhang,Yuqi Zhu,Xiang Chen,Shumin Deng,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen |
発行日 | 2025-01-03 16:44:55+00:00 |
arxivサイト | arxiv_id(pdf) |