要約
大規模な言語モデル(LLM)は、動的な設定で意思決定者として有望であることを示していますが、それらの無国籍性は歴史の自然言語表現を作成する必要があります。
繰り返されるマルチエージェントゲームでLLMエージェントを促すための自然言語「状態」表現を体系的に構築するための統一フレームワークを提示します。
LLMエージェントとのゲームに関する以前の作業は、ゲームの履歴をエンコードするためのアドホックなアプローチを採用しています。これは、エージェントの行動に対する状態表現の影響を曖昧にするだけでなく、研究間の比較可能性を制限します。
私たちのフレームワークは、3つの軸に沿った状態表現の方法を特徴付けることにより、これらのギャップに対処します。アクション情報性(つまり、状態表現が再生されるアクションをキャプチャする程度)。
報酬情報性(つまり、国家表現が得られた報酬を説明する程度);
スタイルを促す(または自然言語の圧縮、つまり全文履歴が要約される程度)。
このフレームワークは、理論と人間の被験者実験の両方で単純な平衡を認めているために選択されたダイナミックな利己的なルーティングゲームに適用します\ Cite {rapoport_choice_2009}。
ゲームの比較的単純さにもかかわらず、LLMエージェントの行動には自然言語の状態表現に重要な依存関係があることがわかります。
特に、エージェントに(1)過去の歴史の完全な自然言語表現を要約されたものを提供する表現が観察します。
(2)生の見返りではなく、後悔に関する情報。
(3)他者の行動に関する限られた情報は、ゲームの理論的平衡予測とより密接に一致する行動につながり、エージェントによるより安定したゲームプレイにより、行動につながります。
対照的に、他の表現は、平衡からの大きな偏差、時間の経過に伴う動的ゲームプレイのより高い変動、またはその両方を示すことができます。
要約(オリジナル)
Large Language Models (LLMs) have shown promise as decision-makers in dynamic settings, but their stateless nature necessitates creating a natural language representation of history. We present a unifying framework for systematically constructing natural language ‘state’ representations for prompting LLM agents in repeated multi-agent games. Previous work on games with LLM agents has taken an ad hoc approach to encoding game history, which not only obscures the impact of state representation on agents’ behavior, but also limits comparability between studies. Our framework addresses these gaps by characterizing methods of state representation along three axes: action informativeness (i.e., the extent to which the state representation captures actions played); reward informativeness (i.e., the extent to which the state representation describes rewards obtained); and prompting style (or natural language compression, i.e., the extent to which the full text history is summarized). We apply this framework to a dynamic selfish routing game, chosen because it admits a simple equilibrium both in theory and in human subject experiments \cite{rapoport_choice_2009}. Despite the game’s relative simplicity, we find that there are key dependencies of LLM agent behavior on the natural language state representation. In particular, we observe that representations which provide agents with (1) summarized, rather than complete, natural language representations of past history; (2) information about regrets, rather than raw payoffs; and (3) limited information about others’ actions lead to behavior that more closely matches game theoretic equilibrium predictions, and with more stable game play by the agents. By contrast, other representations can exhibit either large deviations from equilibrium, higher variation in dynamic game play over time, or both.
arxiv情報
著者 | Lyle Goodyear,Rachel Guo,Ramesh Johari |
発行日 | 2025-06-18 16:53:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google