The Leaderboard Illusion

要約

進捗状況の測定は、あらゆる科学分野の進歩の基本です。
ベンチマークがますます中心的な役割を果たしているため、歪みの影響を受けやすくなります。
Chatbot Arenaは、最も有能なAIシステムをランキングするための頼りになるリーダーボードとして登場しました。
しかし、この作業では、歪んだ競技場をもたらした体系的な問題を特定します。
非公開のプライベートテスト慣行は、公開リリース前に複数のバリアントをテストし、必要に応じてスコアを撤回することができる少数のプロバイダーに利益をもたらすことがわかります。
これらのプロバイダーが最高のスコアを選択する能力が、パフォーマンス結果の選択的な開示により、偏ったアリーナスコアにつながることを確立します。
極端に、LLAMA-4リリースのリードアップでメタによってテストされた27のプライベートLLMバリアントを特定します。
また、独自の閉じたモデルがより高いレート(戦闘の数)でサンプリングされ、オープンウェイトおよびオープンソースの代替品よりもアリーナから除去されるモデルが少ないことを確立します。
これらのポリシーは両方とも、時間の経過とともに大規模なデータアクセスの非対称性につながります。
GoogleやOpenaiなどのプロバイダーは、それぞれアリーナのすべてのデータの推定19.2%と20.4%を受け取りました。
対照的に、合計83のオープンウェイトモデルは、総データの推定29.7%しか受けていません。
Chatbot Arenaデータへのアクセスが大きな利点をもたらすことを示しています。
限られた追加データでさえ、保守的な推定に基づいて、アリーナ分布の最大112%の相対的なパフォーマンスの向上をもたらす可能性があります。
合わせて、これらのダイナミクスは、一般的なモデルの品質ではなく、アリーナ固有のダイナミクスに過剰適合します。
アリーナは、この貴重な評価プラットフォームを維持する主催者とオープンコミュニティの両方の実質的な努力に基づいています。
チャットボットアリーナの評価フレームワークを改革し、フィールドのより公正で透明なベンチマークを促進するための実用的な推奨事項を提供します

要約(オリジナル)

Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena’s evaluation framework and promote fairer, more transparent benchmarking for the field

arxiv情報

著者 Shivalika Singh,Yiyang Nan,Alex Wang,Daniel D’Souza,Sayash Kapoor,Ahmet Üstün,Sanmi Koyejo,Yuntian Deng,Shayne Longpre,Noah Smith,Beyza Ermis,Marzieh Fadaee,Sara Hooker
発行日 2025-04-29 15:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME パーマリンク