Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games

要約

大規模言語モデル (LLM) は現実世界の環境でますます使用されるようになってきていますが、その戦略的能力はまだほとんど解明されていません。
ゲーム理論は、他のエージェントとの対話における LLM の意思決定能力を評価するための優れたフレームワークを提供します。
以前の研究では、LLM が慎重に厳選されたプロンプトを使用してこれらのタスクを解決できることが示されていますが、問題の設定やプロンプトが変更されると失敗します。
この研究では、戦略ゲーム、スタッグ ハント、囚人のジレンマにおける LLM の動作を調査し、さまざまな設定やプロンプトの下でのパフォーマンスの変動を分析します。
私たちの結果は、テストされた最先端の LLM が、(1) 位置バイアス、(2) 利得バイアス、または (3) 行動バイアスの少なくとも 1 つの系統的バイアスを示すことを示しています。
その後、ゲームの設定がバイアスに影響を与えるとずれると、LLM のパフォーマンスが低下することが観察されました。
パフォーマンスは、両方のプレイヤーの指示された優先行動と一致する正しいアクションの選択に基づいて評価されます。
整合性とは、LLM のバイアスが正しいアクションと整合しているかどうかを指します。
たとえば、GPT-4o の平均パフォーマンスは、調整がずれていると 34% 低下します。
さらに、「大きいほど新しいほど優れている」という現在の傾向は上記の場合には当てはまらず、GPT-4o (現在最もパフォーマンスの高い LLM) が最も大幅なパフォーマンスの低下を被っています。
最後に、思考連鎖プロンプトはほとんどのモデルに対するバイアスの影響を軽減しますが、根本的なレベルで問題を解決するにはほど遠いことに注意してください。

要約(オリジナル)

Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic abilities remain largely unexplored. Game theory provides a good framework for assessing the decision-making abilities of LLMs in interactions with other agents. Although prior studies have shown that LLMs can solve these tasks with carefully curated prompts, they fail when the problem setting or prompt changes. In this work we investigate LLMs’ behaviour in strategic games, Stag Hunt and Prisoner Dilemma, analyzing performance variations under different settings and prompts. Our results show that the tested state-of-the-art LLMs exhibit at least one of the following systematic biases: (1) positional bias, (2) payoff bias, or (3) behavioural bias. Subsequently, we observed that the LLMs’ performance drops when the game configuration is misaligned with the affecting biases. Performance is assessed based on the selection of the correct action, one which agrees with the prompted preferred behaviours of both players. Alignment refers to whether the LLM’s bias aligns with the correct action. For example, GPT-4o’s average performance drops by 34% when misaligned. Additionally, the current trend of ‘bigger and newer is better’ does not hold for the above, where GPT-4o (the current best-performing LLM) suffers the most substantial performance drop. Lastly, we note that while chain-of-thought prompting does reduce the effect of the biases on most models, it is far from solving the problem at the fundamental level.

arxiv情報

著者 Nathan Herr,Fernando Acero,Roberta Raileanu,María Pérez-Ortiz,Zhibin Li
発行日 2024-07-16 15:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GT パーマリンク