要約
AIモデルとエージェントの進捗状況を促進するには、標準化されたベンチマークでのパフォーマンスを比較する必要があります。
一般的なエージェントの場合、個々のパフォーマンスは、潜在的に多種多様な異なるタスクで集約されなければなりません。
このペーパーでは、ソフトコンドルセの最適化(SCO)と呼ばれるソーシャルチョイスフレームワークに触発された新しいランキングスキームについて説明し、エージェントの最適なランキングを計算します。これは、評価データのエージェント比較を予測する際に最も少ない間違いを犯すものです。
この最適なランキングは、評価データ(投票と見なされる)が、コンドルセの元の投票システム基準の解決策であるグラウンドトゥルースランキングからの騒々しいサンプルとして解釈される場合の最尤推定値です。
SCOの評価は、コンドルセの勝者が存在する場合に最大であり、クラシックレーティングシステムELOには必ずしも当てはまるわけではありません。
SCO評価を計算し、その経験的パフォーマンスを評価するための3つの最適化アルゴリズムを提案します。
Kemeny-Youngの投票方法の近似として機能する場合、SCOランキングは、Preflibオープンランキブの865優先プロファイルにわたって正規化されたKendall-Tau距離の最適なランキングから平均0〜0.043離れています。
シミュレートされたノイズの多いトーナメントの設定では、SCOはグラウンドトゥルースランキングの正確な近似を実現し、59%以上の優先データが欠落している場合、いくつかのベースラインの中で最高です。
最後に、SCOランキングは、延べたテストセットで測定された最適なランキングに最適な近似を提供します。
要約(オリジナル)
Driving progress of AI models and agents requires comparing their performance on standardized benchmarks; for general agents, individual performances must be aggregated across a potentially wide variety of different tasks. In this paper, we describe a novel ranking scheme inspired by social choice frameworks, called Soft Condorcet Optimization (SCO), to compute the optimal ranking of agents: the one that makes the fewest mistakes in predicting the agent comparisons in the evaluation data. This optimal ranking is the maximum likelihood estimate when evaluation data (which we view as votes) are interpreted as noisy samples from a ground truth ranking, a solution to Condorcet’s original voting system criteria. SCO ratings are maximal for Condorcet winners when they exist, which we show is not necessarily true for the classical rating system Elo. We propose three optimization algorithms to compute SCO ratings and evaluate their empirical performance. When serving as an approximation to the Kemeny-Young voting method, SCO rankings are on average 0 to 0.043 away from the optimal ranking in normalized Kendall-tau distance across 865 preference profiles from the PrefLib open ranking archive. In a simulated noisy tournament setting, SCO achieves accurate approximations to the ground truth ranking and the best among several baselines when 59\% or more of the preference data is missing. Finally, SCO ranking provides the best approximation to the optimal ranking, measured on held-out test sets, in a problem containing 52,958 human players across 31,049 games of the classic seven-player game of Diplomacy.
arxiv情報
著者 | Marc Lanctot,Kate Larson,Michael Kaisers,Quentin Berthet,Ian Gemp,Manfred Diaz,Roberto-Rafael Maura-Rivero,Yoram Bachrach,Anna Koop,Doina Precup |
発行日 | 2025-02-20 16:41:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google