Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting

要約

大規模な言語モデル(LLM)は、モデル内に保存されている膨大な量の知識のために、意思決定に大きな可能性を示しています。
ただし、これらの事前に訓練されたモデルは、推論能力が欠けている傾向があり、新しい環境に適応することは困難であり、複雑な現実世界のタスクへの応用をさらに妨げています。
人間の認知プロセスに触発されたこれらの課題に対処するために、因果関係のLLMを提案します。これは、構造因果モデル(SCM)を意思決定プロセスに統合して、「学習を適応する」パラダイムで環境の構造化された知識をモデル化、更新、および利用します。
具体的には、学習段階では、まずLLMを利用して、環境固有の因果エンティティとその因果関係を抽出して、環境の構造化された因果モデルを初期化します。
その後、適応段階で、因果介入のアイデアを介して、環境に関する外部フィードバックを通じて構造化された因果モデルを更新します。
最後に、演技段階で、因果関係のLLMは、強化学習エージェントを介したより効率的な政策決定のために構造化された因果知識を活用します。
上記のプロセスは因果的な知識を学ぶために繰り返し実行され、最終的に因果関係のLLMが環境を​​より正確に理解し、より効率的な決定を下すことができます。
Open-Worldゲーム内の22の多様なタスクにわたる実験結果「Crafter」は、提案された方法の有効性を検証します。

要約(オリジナル)

Large language models (LLMs) have shown great potential in decision-making due to the vast amount of knowledge stored within the models. However, these pre-trained models are prone to lack reasoning abilities and are difficult to adapt to new environments, further hindering their application to complex real-world tasks. To address these challenges, inspired by the human cognitive process, we propose Causal-aware LLMs, which integrate the structural causal model (SCM) into the decision-making process to model, update, and utilize structured knowledge of the environment in a “learning-adapting-acting’ paradigm. Specifically, in the learning stage, we first utilize an LLM to extract the environment-specific causal entities and their causal relations to initialize a structured causal model of the environment. Subsequently,in the adapting stage, we update the structured causal model through external feedback about the environment, via an idea of causal intervention. Finally, in the acting stage, Causal-aware LLMs exploit structured causal knowledge for more efficient policy-making through the reinforcement learning agent. The above processes are performed iteratively to learn causal knowledge, ultimately enabling the causal-aware LLMs to achieve a more accurate understanding of the environment and make more efficient decisions. Experimental results across 22 diverse tasks within the open-world game “Crafter’ validate the effectiveness of our proposed method.

arxiv情報

著者 Wei Chen,Jiahao Zhang,Haipeng Zhu,Boyan Xu,Zhifeng Hao,Keli Zhang,Junjian Ye,Ruichu Cai
発行日 2025-05-30 15:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク