Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning


この論文では、言語モデルの意思決定の合理性を強化する新しい推論アプローチである BI-Directional DEliberation Reasoning (BIDDER) を紹介します。
従来の推論方法は通常、履歴情報に依存し、一方向 (左から右) の推論戦略を採用しています。
BIDDER は、合理的な意思決定の原則、特に不確実性の管理と期待される有用性の予測を組み込むことで、このギャップに対処します。
私たちのアプローチには 3 つの主要なプロセスが含まれます。履歴データから意思決定プロセスにおける不確実な情報を表す隠れ状態を推測します。
履歴情報 (過去のコンテキスト) と長期的な結果 (将来のコンテキスト) を統合して、推論に情報を提供します。
双方向の推論を活用することで、BIDDER は過去と未来の両方のコンテキストを徹底的に探索し、より多くの情報に基づいた合理的な意思決定を導きます。
私たちは、ポーカー (リミット テキサス ホールデム) と交渉という 2 つの明確に定義されたシナリオで BIDDER の有効性をテストしました。
私たちの実験は、BIDDER が LLM と LLM エージェントの意思決定能力を大幅に向上させることを示しています。


This paper introduces BI-Directional DEliberation Reasoning (BIDDER), a novel reasoning approach to enhance the decision rationality of language models. Traditional reasoning methods typically rely on historical information and employ uni-directional (left-to-right) reasoning strategy. This lack of bi-directional deliberation reasoning results in limited awareness of potential future outcomes and insufficient integration of historical context, leading to suboptimal decisions. BIDDER addresses this gap by incorporating principles of rational decision-making, specifically managing uncertainty and predicting expected utility. Our approach involves three key processes: Inferring hidden states to represent uncertain information in the decision-making process from historical data; Using these hidden states to predict future potential states and potential outcomes; Integrating historical information (past contexts) and long-term outcomes (future contexts) to inform reasoning. By leveraging bi-directional reasoning, BIDDER ensures thorough exploration of both past and future contexts, leading to more informed and rational decisions. We tested BIDDER’s effectiveness in two well-defined scenarios: Poker (Limit Texas Hold’em) and Negotiation. Our experiments demonstrate that BIDDER significantly improves the decision-making capabilities of LLMs and LLM agents.


著者 Yadong Zhang,Shaoguang Mao,Wenshan Wu,Yan Xia,Tao Ge,Man Lan,Furu Wei
発行日 2024-07-08 16:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク