Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games

要約

大規模言語モデル(LLM)は、実世界でますます使用されるようになってきているが、その戦略的能力はほとんど未解明である。ゲーム理論は、他のエージェントとの相互作用におけるLLMの意思決定能力を評価するための優れたフレームワークを提供する。先行研究では、LLMは注意深く作成されたプロンプトによってこれらの課題を解決できることが示されているが、問題設定やプロンプトが変化すると失敗する。本研究では、戦略ゲームであるスタッグハントと囚人ジレンマにおけるLLMの振る舞いを調査し、異なる設定やプロンプトの下でのパフォーマンスの変化を分析する。その結果、テストした最新のLLMは、(1)位置バイアス、(2)ペイオフバイアス、(3)行動バイアスのうち、少なくとも1つの系統的なバイアスを示すことがわかった。その後、ゲーム構成がバイアスに影響されたものとずれた場合、LLMの性能が低下することが確認された。パフォーマンスは、両プレイヤーに促された好ましい行動と一致する正しい行動の選択に基づいて評価される。アライメントとは、LLMのバイアスが正しい行動と一致しているかどうかを意味する。例えば、GPT-4oの平均成績は、アライメントがずれると34%低下する。さらに、GPT-4o(現在最も成績の良いLLM)が最も大幅な成績低下に見舞われるなど、「大きくて新しい方が良い」という現在の傾向は上記では成り立ちません。最後に、思考連鎖プロンプトはほとんどのモデルでバイアスの影響を減少させるが、根本的なレベルでの問題解決には程遠いことに注意する。

要約(オリジナル)

Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic abilities remain largely unexplored. Game theory provides a good framework for assessing the decision-making abilities of LLMs in interactions with other agents. Although prior studies have shown that LLMs can solve these tasks with carefully curated prompts, they fail when the problem setting or prompt changes. In this work we investigate LLMs’ behaviour in strategic games, Stag Hunt and Prisoner Dilemma, analyzing performance variations under different settings and prompts. Our results show that the tested state-of-the-art LLMs exhibit at least one of the following systematic biases: (1) positional bias, (2) payoff bias, or (3) behavioural bias. Subsequently, we observed that the LLMs’ performance drops when the game configuration is misaligned with the affecting biases. Performance is assessed based on the selection of the correct action, one which agrees with the prompted preferred behaviours of both players. Alignment refers to whether the LLM’s bias aligns with the correct action. For example, GPT-4o’s average performance drops by 34% when misaligned. Additionally, the current trend of ‘bigger and newer is better’ does not hold for the above, where GPT-4o (the current best-performing LLM) suffers the most substantial performance drop. Lastly, we note that while chain-of-thought prompting does reduce the effect of the biases on most models, it is far from solving the problem at the fundamental level.

arxiv情報

著者 Nathan Herr,Fernando Acero,Roberta Raileanu,María Pérez-Ortiz,Zhibin Li
発行日 2024-07-05 12:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.GT パーマリンク