Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

要約

人間の評価に関連するスケーラビリティの課題に対する有望な解決策を提供する LLM-as-a-judge パラダイムは、大規模言語モデル (LLM) を評価するアプローチとして急速に注目を集めています。
しかし、このパラダイムの長所と短所、およびこのパラダイムがどのような潜在的なバイアスを保持しているかについては、まだ多くの未解決の疑問が残っています。
この論文では、人間間の合意が高いクリーンなシナリオに焦点を当て、裁判官として機能するさまざまな LLM のパフォーマンスに関する包括的な研究を紹介します。
異なるモデルサイズとファミリーの 13 個の裁判官モデルを調査し、9 つの異なる「受験者モデル」 (基本モデルと指導調整済みモデルの両方) の解答を判定した結果、最高 (および最大) のモデルのみが人間との合理的な一致を達成していることがわかりました。
ただし、人間間の合意にはまだかなり及ばず、割り当てられたスコアは依然として人間が割り当てたスコアと最大 5 ポイント異なる可能性があります。
代わりに、9 つの受験者モデルのランキングに関しては、より小さなモデルや語彙メトリクスに含まれるものも、妥当なシグナルを提供する可能性があります。
エラー分析やその他の研究を通じて、プロンプトの複雑さや長さに対する敏感さ、寛大な傾向など、ジャッジモデルの脆弱性を特定します。
この比較的単純な設定では、優秀な審査員であっても人間とは異なるという事実は、より複雑な設定で審査員を使用する場合には注意が賢明である可能性があることを示唆しています。
最後に、私たちの研究では、単純なパーセントの一致を超えた一致メトリクスを使用することの重要性が再発見され、一致率が高い審査員が依然として大幅に異なるスコアを割り当てる可能性があることが示されています。

要約(オリジナル)

Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges, focusing on a clean scenario in which inter-human agreement is high. Investigating thirteen judge models of different model sizes and families, judging answers of nine different ‘examtaker models’ – both base and instruction-tuned – we find that only the best (and largest) models achieve reasonable alignment with humans. However, they are still quite far behind inter-human agreement and their assigned scores may still differ with up to 5 points from human-assigned scores. In terms of their ranking of the nine exam-taker models, instead, also smaller models and even the lexical metric contains may provide a reasonable signal. Through error analysis and other studies, we identify vulnerabilities in judge models, such as their sensitivity to prompt complexity and length, and a tendency toward leniency. The fact that even the best judges differ from humans in this comparatively simple setup suggest that caution may be wise when using judges in more complex setups. Lastly, our research rediscovers the importance of using alignment metrics beyond simple percent alignment, showing that judges with high percent agreement can still assign vastly different scores.

arxiv情報

著者 Aman Singh Thakur,Kartik Choudhary,Venkat Srinik Ramayapally,Sankaran Vaidyanathan,Dieuwke Hupkes
発行日 2025-01-21 04:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク