JudgeBench: A Benchmark for Evaluating LLM-based Judges

要約

LLM ベースのジャッジは、人間による評価に代わるスケーラブルな代替手段として登場し、モデルの評価、比較、改善に使用されることが増えています。
ただし、LLM に基づく裁判官自体の信頼性が精査されることはほとんどありません。
LLM が高度になるにつれて、その応答はより洗練され、評価するにはより強力な裁判官が必要になります。
既存のベンチマークは主に、人間の好みと裁判官の一致に焦点を当てていますが、クラウドソーシングによる人間の好みが事実と論理の正しさの指標として不十分である場合、より困難な課題を考慮に入れることができないことがよくあります。
これに対処するために、LLM に基づく裁判官を客観的に評価するための新しい評価フレームワークを提案します。
このフレームワークに基づいて、知識、推論、数学、コーディングにわたる困難な応答ペアについて LLM ベースのジャッジを評価するためのベンチマークである JudgeBench を提案します。
JudgeBench は、既存の困難なデータセットを、客観的な正確さを反映する優先ラベルを持つ困難な応答ペアに変換するための新しいパイプラインを活用します。
プロンプトジャッジ、微調整されたジャッジ、マルチエージェントジャッジ、および報酬モデルのコレクションに関する包括的な評価では、多くの強力なモデル (GPT-4o など) のパフォーマンスがわずかに優れているものの、JudgeBench が以前のベンチマークよりも大幅に大きな課題を提示していることが示されています。
ランダムな推測よりも。
全体として、JudgeBench は、ますます高度な LLM ベースの裁判官を評価するための信頼できるプラットフォームを提供します。
データとコードは https://github.com/ScalerLab/JudgeBench で入手できます。

要約(オリジナル)

LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge’s alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

arxiv情報

著者 Sijun Tan,Siyuan Zhuang,Kyle Montgomery,William Y. Tang,Alejandro Cuadron,Chenguang Wang,Raluca Ada Popa,Ion Stoica
発行日 2024-10-16 17:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク