Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning

要約

この論文では、言語モデルの意思決定の合理性を強化する新しい推論アプローチである BI-Directional DEliberation Reasoning (BIDDER) を紹介します。
従来の推論方法は通常、履歴情報に依存し、一方向 (左から右) の推論戦略を採用しています。
この双方向の熟慮推論の欠如により、潜在的な将来の結果に対する認識が限定され、歴史的背景の統合が不十分になり、最適とはいえない決定がもたらされます。
BIDDER は、合理的な意思決定の原則、特に不確実性の管理と期待される有用性の予測を組み込むことで、このギャップに対処します。
私たちのアプローチには 3 つの主要なプロセスが含まれます。履歴データから意思決定プロセスにおける不確実な情報を表す隠れ状態を推測します。
これらの隠れた状態を使用して、将来の潜在的な状態と潜在的な結果を予測します。
履歴情報 (過去のコンテキスト) と長期的な結果 (将来のコンテキスト) を統合して、推論に情報を提供します。
双方向の推論を活用することで、BIDDER は過去と未来の両方のコンテキストを徹底的に探索し、より多くの情報に基づいた合理的な意思決定を導きます。
私たちは、ポーカー (リミット テキサス ホールデム) と交渉という 2 つの明確に定義されたシナリオで BIDDER の有効性をテストしました。
私たちの実験は、BIDDER が LLM と LLM エージェントの意思決定能力を大幅に向上させることを示しています。

要約(オリジナル)

This paper introduces BI-Directional DEliberation Reasoning (BIDDER), a novel reasoning approach to enhance the decision rationality of language models. Traditional reasoning methods typically rely on historical information and employ uni-directional (left-to-right) reasoning strategy. This lack of bi-directional deliberation reasoning results in limited awareness of potential future outcomes and insufficient integration of historical context, leading to suboptimal decisions. BIDDER addresses this gap by incorporating principles of rational decision-making, specifically managing uncertainty and predicting expected utility. Our approach involves three key processes: Inferring hidden states to represent uncertain information in the decision-making process from historical data; Using these hidden states to predict future potential states and potential outcomes; Integrating historical information (past contexts) and long-term outcomes (future contexts) to inform reasoning. By leveraging bi-directional reasoning, BIDDER ensures thorough exploration of both past and future contexts, leading to more informed and rational decisions. We tested BIDDER’s effectiveness in two well-defined scenarios: Poker (Limit Texas Hold’em) and Negotiation. Our experiments demonstrate that BIDDER significantly improves the decision-making capabilities of LLMs and LLM agents.

arxiv情報

著者 Yadong Zhang,Shaoguang Mao,Wenshan Wu,Yan Xia,Tao Ge,Man Lan,Furu Wei
発行日 2024-07-08 16:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク