Re-evaluating Open-ended Evaluation of Large Language Models

要約

評価は、伝統的に特定のスキルの候補者のランキングに焦点を当ててきました。
大規模な言語モデル(LLM)などの現代のジェネラリストモデルは、このパラダイムを明らかに上回ります。
候補モデルがユーザーがサビされたプロンプトで比較されるオープンエンド評価システムが、一般的なソリューションとして浮上しています。
多くの利点にもかかわらず、現在のELOベースの評価システムは、冗長性に対する感受性のために、意図的または偶発的なデータのバイアスの影響を受けやすく、さらには強化できることを示しています。
この問題に対処するために、評価を3プレイヤーゲームとして提案し、冗長性の堅牢性を確保するために、新しいゲーム理論ソリューションの概念を導入します。
私たちの方法は直感的な評価につながり、LLM開発の競争的景観に関する洞察を提供することを示します。

要約(オリジナル)

Evaluation has traditionally focused on ranking candidates for a specific skill. Modern generalist models, such as Large Language Models (LLMs), decidedly outpace this paradigm. Open-ended evaluation systems, where candidate models are compared on user-submitted prompts, have emerged as a popular solution. Despite their many advantages, we show that the current Elo-based rating systems can be susceptible to and even reinforce biases in data, intentional or accidental, due to their sensitivity to redundancies. To address this issue, we propose evaluation as a 3-player game, and introduce novel game-theoretic solution concepts to ensure robustness to redundancy. We show that our method leads to intuitive ratings and provide insights into the competitive landscape of LLM development.

arxiv情報

著者 Siqi Liu,Ian Gemp,Luke Marris,Georgios Piliouras,Nicolas Heess,Marc Lanctot
発行日 2025-02-27 15:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.GT, cs.LG, stat.ML パーマリンク