要約
不明な環境で行動し、学習し、戦略を立てるLLMエージェントのベンチマークを開発します。これは、LLMエージェントが意図的な探索から時間をかけて学習しなければならない仕様です。
私たちのベンチマークは、経済学の重要な問題に由来する意思決定タスクで構成されています。
飽和状態を未然に防ぐために、ベンチマークタスクはスケーラブルな難易度レベルで合成的に生成されます。
さらに、LLMSおよびLLMエージェントの新しい種類の定量的尺度であるLitmusテストを提案します。
ベンチマークとは異なり、Litmusテストは、LLMおよびLLMエージェントの文字、値、および傾向の違いを定量化します。
全体として、当社のベンチマークとLitmusテストは、調達、スケジュール、タスクの割り当て、価格設定にまたがる多様な設定における複雑な経済問題に取り組むLLMエージェントの能力と傾向を評価します – そのようなエージェントがさらに重要になるはずのアプリケーションが経済にさらに統合されます。
要約(オリジナル)
We develop benchmarks for LLM agents that act in, learn from, and strategize in unknown environments, the specifications of which the LLM agent must learn over time from deliberate exploration. Our benchmarks consist of decision-making tasks derived from key problems in economics. To forestall saturation, the benchmark tasks are synthetically generated with scalable difficulty levels. Additionally, we propose litmus tests, a new kind of quantitative measure for LLMs and LLM agents. Unlike benchmarks, litmus tests quantify differences in character, values, and tendencies of LLMs and LLM agents, by considering their behavior when faced with tradeoffs (e.g., efficiency versus equality) where there is no objectively right or wrong behavior. Overall, our benchmarks and litmus tests assess the abilities and tendencies of LLM agents in tackling complex economic problems in diverse settings spanning procurement, scheduling, task allocation, and pricing — applications that should grow in importance as such agents are further integrated into the economy.
arxiv情報
著者 | Sara Fish,Julia Shephard,Minkai Li,Ran I. Shorrer,Yannai A. Gonczarowski |
発行日 | 2025-03-24 16:06:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google