An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability

要約

大規模な言語モデル(LLMS)が進歩し続けるにつれて、特に自由な指導に従うタスクには、信頼できる評価方法が不可欠です。
LLM-as-a-judgeは、LLMを評価者として使用して自動評価を可能にしますが、その信頼性は不確実なままです。
この作業では、その信頼性に影響を与える重要な要因を分析し、人間の判断と評価の一貫性との整合に焦点を当てています。
BigGenbenchとEvalbiasbenchを使用して、評価設計、解読戦略、および評価におけるチェーンオブテュート(COT)推論の効果を研究します。
我々の結果は、評価基準が信頼性にとって重要であり、非決定的なサンプリングが決定論的評価よりも人間の好みとの調整を改善し、COTの推論により、明確な評価基準が存在する場合、最小限の利益を提供することが示されています。

要約(オリジナル)

As large language models (LLMs) continue to advance, reliable evaluation methods are essential particularly for open-ended, instruction-following tasks. LLM-as-a-Judge enables automatic evaluation using LLMs as evaluators, but its reliability remains uncertain. In this work, we analyze key factors affecting its trustworthiness, focusing on alignment with human judgments and evaluation consistency. Using BIGGENBench and EvalBiasBench, we study the effects of evaluation design, decoding strategies, and Chain-of-Tought (CoT) reasoning in evaluation. Our results show that evaluation criteria are critical for reliability, non-deterministic sampling improves alignment with human preferences over deterministic evaluation, and CoT reasoning offers minimal gains when clear evaluation criteria are present.

arxiv情報

著者 Yusuke Yamauchi,Taro Yano,Masafumi Oyamada
発行日 2025-06-16 16:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク