GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations

要約

大規模言語モデル (LLM) が重要な現実世界のアプリケーションに統合されるにつれて、その戦略的かつ論理的な推論能力がますます重要になっています。
この論文では、対戦相手と競争するために純粋な論理と戦略的推論を必要とするボード ゲームやカード ゲームなどのゲーム理論的なタスクを通じて、競争環境における LLM の推論能力を評価します。
私たちはまず、包括的なゲーム分類法 (完全情報と不完全情報、動的対静的シナリオ、確率的シナリオと決定的シナリオ) にわたって、広く認識されている 10 のタスクを構成する言語駆動型環境である GTBench を提案します。
次に、(1) LLM のゲーム理論的推論を特徴づけます。
(2) 推論評価として LLM 対 LLM 競争を実行します。
(1) LLM はさまざまなゲーム シナリオに関して異なる動作をすることがわかります。
たとえば、LLM は完全で決定的なゲームでは失敗しますが、確率的なゲーム シナリオでは競争力があります。
(2) CodeLlama-34b-Instruct や Llama-2-70b-chat などのほとんどのオープンソース LLM は、複雑なゲームでは商用 LLM (GPT-4 など) よりも競争力がありませんが、最近リリースされた Llama-3-
70b-Instruct はこの欠点を補います。
さらに、コードの事前トレーニングは戦略的推論に大きなメリットをもたらしますが、思考連鎖 (CoT) や思考ツリー (ToT) などの高度な推論手法は必ずしも役立つとは限りません。
さらに、反復ゲームにおける均衡やパレート効率など、LLM のゲーム理論的特性を特徴付けます。
LLM の動作をより深く理解するために、詳細なエラー プロファイルが提供されています。
私たちの研究が標準化されたプロトコルを提供し、LLM の戦略的推論におけるさらなる探索を促進する基盤として機能することを願っています。

要約(オリジナル)

As Large Language Models (LLMs) are integrated into critical real-world applications, their strategic and logical reasoning abilities are increasingly crucial. This paper evaluates LLMs’ reasoning abilities in competitive environments through game-theoretic tasks, e.g., board and card games that require pure logic and strategic reasoning to compete with opponents. We first propose GTBench, a language-driven environment composing 10 widely recognized tasks, across a comprehensive game taxonomy: complete versus incomplete information, dynamic versus static, and probabilistic versus deterministic scenarios. Then, we (1) Characterize the game-theoretic reasoning of LLMs; and (2) Perform LLM-vs.-LLM competitions as reasoning evaluation. We observe that (1) LLMs have distinct behaviors regarding various gaming scenarios; for example, LLMs fail in complete and deterministic games yet they are competitive in probabilistic gaming scenarios; (2) Most open-source LLMs, e.g., CodeLlama-34b-Instruct and Llama-2-70b-chat, are less competitive than commercial LLMs, e.g., GPT-4, in complex games, yet the recently released Llama-3-70b-Instruct makes up for this shortcoming. In addition, code-pretraining greatly benefits strategic reasoning, while advanced reasoning methods such as Chain-of-Thought (CoT) and Tree-of-Thought (ToT) do not always help. We further characterize the game-theoretic properties of LLMs, such as equilibrium and Pareto Efficiency in repeated games. Detailed error profiles are provided for a better understanding of LLMs’ behavior. We hope our research provides standardized protocols and serves as a foundation to spur further explorations in the strategic reasoning of LLMs.

arxiv情報

著者 Jinhao Duan,Renming Zhang,James Diffenderfer,Bhavya Kailkhura,Lichao Sun,Elias Stengel-Eskin,Mohit Bansal,Tianlong Chen,Kaidi Xu
発行日 2024-06-10 17:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク