Unbiased Evaluation of Large Language Models from a Causal Perspective

要約

ベンチマークの汚染は、LLM評価コミュニティで大きな懸念事項となっています。
前のエージェントとしてのエージェントは、質問の生成にエージェントを関与させることにより、この問題に対処します。
彼らの成功にもかかわらず、エージェントとしてのエージェントとしてのバイアスは、ほとんど未踏のままです。
この論文では、評価バイアスの理論的定式化を提示し、偏りのない評価プロトコルの設計に関する貴重な洞察を提供します。
さらに、エージェントとしてのエージェントとしての2つのタイプのバイアスを、慎重に設計されたエージェントとしてのエージェントとしての最小限のエージェントのセットアップで慎重に設計されたプローブタスクを識別します。
これらの問題に対処するために、偏見のない評価者を提案します。これは、LLMS.Extiveの実験のより包括的で公平で解釈可能な評価を提供する評価プロトコルであり、現在のLLMの改善の重要な余地を明らかにしています。
さらに、公平な評価者がベンチマーク汚染の強力な証拠を提供するだけでなく、解釈可能な評価結果も提供することを実証します。

要約(オリジナル)

Benchmark contamination has become a significant concern in the LLM evaluation community. Previous Agents-as-an-Evaluator address this issue by involving agents in the generation of questions. Despite their success, the biases in Agents-as-an-Evaluator methods remain largely unexplored. In this paper, we present a theoretical formulation of evaluation bias, providing valuable insights into designing unbiased evaluation protocols. Furthermore, we identify two type of bias in Agents-as-an-Evaluator through carefully designed probing tasks on a minimal Agents-as-an-Evaluator setup. To address these issues, we propose the Unbiased Evaluator, an evaluation protocol that delivers a more comprehensive, unbiased, and interpretable assessment of LLMs.Extensive experiments reveal significant room for improvement in current LLMs. Additionally, we demonstrate that the Unbiased Evaluator not only offers strong evidence of benchmark contamination but also provides interpretable evaluation results.

arxiv情報

著者 Meilin Chen,Jian Tian,Liang Ma,Di Xie,Weijie Chen,Jiang Zhu
発行日 2025-02-10 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク