Agent Planning with World Knowledge Model

要約

インタラクティブな計画タスクを実行するためのエージェント モデルとして大規模言語モデル (LLM) を直接使用する最近の取り組みは、賞賛に値する結果を示しています。
しかし、そのような成果にもかかわらず、彼らは依然として、「現実の」物理世界についての理解が不十分なため、世界規模の計画において頭の悪い試行錯誤や、局所的な計画における幻覚作用の生成に苦労しています。
タスク前にグローバルな事前知識を提供し、タスク中にローカルな動的知識を維持する人間の精神世界知識モデルを模倣して、本稿ではエージェントの計画を容易にするパラメトリック世界知識モデル(WKM)を紹介します。
具体的には、エージェント モデルを操作して、専門家の軌跡とサンプリングされた軌跡の両方から知識を自己合成します。
次に、WKM を開発し、グローバルな計画を導くための事前タスクの知識と、ローカルな計画を支援するための動的な状態の知識を提供します。
3 つの最先端のオープンソース LLM、Mistral-7B、Gemma-7B、Llama-3-8B を使用した 3 つの複雑な現実世界のシミュレートされたデータセットの実験結果は、私たちの方法がさまざまな方法と比較して優れたパフォーマンスを達成できることを示しています。
強いベースライン。
さらに、WKM が盲目的な試行錯誤や幻覚行動の問題を効果的に軽減し、エージェントの世界理解に強力なサポートを提供できることを示すために分析を行いました。
その他の興味深い発見としては、1) インスタンス レベルのタスクの知識は、目に見えないタスクに対してより適切に一般化できる、2) 弱い WKM が強力なエージェント モデルの計画を導くことができる、3) 統合された WKM トレーニングにはさらなる開発の有望な可能性がある、などがあります。
コードは https://github.com/zjunlp/WKM で入手できます。

要約(オリジナル)

Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the “real” physical world. Imitating humans’ mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent’s understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. The code is available at https://github.com/zjunlp/WKM.

arxiv情報

著者 Shuofei Qiao,Runnan Fang,Ningyu Zhang,Yuqi Zhu,Xiang Chen,Shumin Deng,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2024-10-15 13:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA パーマリンク