GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

要約

大規模言語モデル (LLM) は、自然言語によるコミュニケーションが普及している経済的および戦略的相互作用において大きな可能性を示しています。
これにより、LLM は合理的に動作するのかという重要な疑問が生じます。
彼らは人間の行動を真似ることができるのでしょうか?
効率的で公平な結果に達する傾向があるでしょうか?
戦略的インタラクションにおける自然言語の役割は何ですか?
経済環境の特徴はこれらのダイナミクスにどのような影響を与えるのでしょうか?
これらの質問は、LLM ベースのエージェントをオンライン小売プラットフォームやレコメンダー システムなどの現実世界のデータ駆動型システムに統合することの経済的および社会的影響に関して重要になります。
ML コミュニティは、このようなマルチエージェント設定における LLM の可能性を探求してきましたが、研究全体で仮定、設計の選択、評価基準が異なるため、堅牢で有意義な結論を導き出すことが困難になっています。
これに対処するために、2 人用のシーケンシャルな言語ベースのゲームに関する研究を標準化するためのベンチマークを導入します。
経済文献からインスピレーションを得て、エージェントのパフォーマンス (自己利益) とゲームの結果 (効率と公平性) を評価するための、一貫したパラメーター化、自由度、および経済的尺度を備えたゲームの 3 つの基本ファミリーを定義します。
私たちは、インタラクションのシミュレーションと分析のためのオープンソース フレームワークを開発し、それを利用して、多数のゲーム構成にわたる LLM 対 LLM インタラクションのデータセットと、人間対 LLM インタラクションの追加データセットを収集します。
広範な実験を通じて、私たちのフレームワークとデータセットを次の目的でどのように使用できるかを実証します。(i) LLM ベースのエージェントの行動を、さまざまな経済状況における人間のプレーヤーと比較する。
(ii) 個人および集団のパフォーマンス尺度の両方でエージェントを評価する。
(iii) 環境の経済的特性がエージェントの行動に及ぼす影響を定量化する。

要約(オリジナル)

Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents’ performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.

arxiv情報

著者 Eilam Shapira,Omer Madmon,Itamar Reinman,Samuel Joseph Amouyal,Roi Reichart,Moshe Tennenholtz
発行日 2024-10-07 17:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.GT, cs.LG パーマリンク