K-Level Reasoning with Large Language Models

要約

大規模言語モデル(Large Language Models: LLM)は複雑な推論タスクにおいてその能力を発揮してきたが、ビジネス戦略や株式市場分析などの動的、対話的、競争的なシナリオにおけるその性能はまだ十分に研究されていない。このギャップを埋めるために、我々は、急速に進化する環境における意思決定のためのLLMの動的推論能力を正式に探求する。現実世界の動的意思決定の複雑さを反映した、ゲーム理論に基づく2つの試験的課題を紹介する。これらの課題は明確に定義されており、LLMの動的推論能力を明確かつ制御可能かつ正確に評価することができる。広範な実験を通じて、既存の推論手法は、kレベル思考を必要とする動的な設定において挫折しがちであることを発見した。これに対処するため、我々はLLMのための新しい推論アプローチを提案する。このアプローチは、利用可能な履歴情報に基づいて再帰的にkレベル思考を採用するライバルの視点を採用することで、ライバルのその後の動きの予測精度を大幅に向上させ、より戦略的な意思決定を可能にする。この研究は、動的推論の評価のための強固な定量的ベンチマークを設定するだけでなく、動的文脈におけるLLMの熟練度を著しく向上させる。

要約(オリジナル)

While Large Language Models (LLMs) have demonstrated their proficiency in complex reasoning tasks, their performance in dynamic, interactive, and competitive scenarios – such as business strategy and stock market analysis – remains underexplored. To bridge this gap, we formally explore the dynamic reasoning capabilities of LLMs for decision-making in rapidly evolving environments. We introduce two game theory-based pilot challenges that mirror the complexities of real-world dynamic decision-making. These challenges are well-defined, enabling clear, controllable, and precise evaluation of LLMs’ dynamic reasoning abilities. Through extensive experiments, we find that existing reasoning methods tend to falter in dynamic settings that require k-level thinking – a key concept not tackled by previous works. To address this, we propose a novel reasoning approach for LLMs, named ‘K-Level Reasoning’. This approach adopts the perspective of rivals to recursively employ k-level thinking based on available historical information, which significantly improves the prediction accuracy of rivals’ subsequent moves and informs more strategic decision-making. This research not only sets a robust quantitative benchmark for the assessment of dynamic reasoning but also markedly enhances the proficiency of LLMs in dynamic contexts.

arxiv情報

著者 Yadong Zhang,Shaoguang Mao,Tao Ge,Xun Wang,Yan Xia,Man Lan,Furu Wei
発行日 2024-02-02 16:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク