要約
大規模言語モデル (LLM) は、一般的に機能する AI エージェントを構築するための強力な基盤を提供します。
これらのエージェントは、近い将来、現実世界に大規模に展開され、個々の人間 (AI アシスタントなど) または人間のグループ (AI を活用した企業など) の利益を代表するようになるかもしれません。
現時点では、何世代にもわたる反復展開にわたって相互作用する複数の LLM エージェントのダイナミクスについてはほとんどわかっていません。
この論文では、LLMエージェントの「社会」が、文明の成功にとって間違いなく重要である人間の社会性の際立った特徴である離反へのインセンティブに直面して、相互に有益な社会規範を学習できるかどうかを検討します。
特に、エージェントが同僚の最近の行動を観察できる古典的な反復ドナー ゲームをプレイする LLM エージェントの世代にわたる間接互恵性の進化を研究します。
協力の進化は基本モデル間で著しく異なり、Claude 3.5 Sonnet エージェントの社会は Gemini 1.5 Flash よりも大幅に高い平均スコアを達成し、ひいては GPT-4o を上回っていることがわかりました。
さらに、Claude 3.5 Sonnet は、さらに高いスコアを達成するために、コストのかかる罰のための追加メカニズムを利用できますが、Gemini 1.5 Flash と GPT-4o はそれができません。
各モデル クラスでは、ランダム シード全体での創発的な動作の変動も観察されており、初期条件に対する敏感な依存性が十分に研究されていないことを示唆しています。
私たちは、私たちの評価体制が、社会の協力的なインフラストラクチャーに対する LLM エージェントの導入の影響に焦点を当てた、安価で有益な新しいクラスの LLM ベンチマークを生み出す可能性があることを示唆しています。
要約(オリジナル)
Large language models (LLMs) provide a compelling foundation for building generally-capable AI agents. These agents may soon be deployed at scale in the real world, representing the interests of individual humans (e.g., AI assistants) or groups of humans (e.g., AI-accelerated corporations). At present, relatively little is known about the dynamics of multiple LLM agents interacting over many generations of iterative deployment. In this paper, we examine whether a ‘society’ of LLM agents can learn mutually beneficial social norms in the face of incentives to defect, a distinctive feature of human sociality that is arguably crucial to the success of civilization. In particular, we study the evolution of indirect reciprocity across generations of LLM agents playing a classic iterated Donor Game in which agents can observe the recent behavior of their peers. We find that the evolution of cooperation differs markedly across base models, with societies of Claude 3.5 Sonnet agents achieving significantly higher average scores than Gemini 1.5 Flash, which, in turn, outperforms GPT-4o. Further, Claude 3.5 Sonnet can make use of an additional mechanism for costly punishment to achieve yet higher scores, while Gemini 1.5 Flash and GPT-4o fail to do so. For each model class, we also observe variation in emergent behavior across random seeds, suggesting an understudied sensitive dependence on initial conditions. We suggest that our evaluation regime could inspire an inexpensive and informative new class of LLM benchmarks, focussed on the implications of LLM agent deployment for the cooperative infrastructure of society.
arxiv情報
著者 | Aron Vallinder,Edward Hughes |
発行日 | 2024-12-13 16:45:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google