Evaluating the Evaluator: Measuring LLMs’ Adherence to Task Evaluation Instructions

要約

LLMs-as-a-judge は、タスク評価における人間の判断 (Zheng et al. 2024) を LLM を使用した自動評価に置き換える、最近普及した方法です。
RLHF (人間のフィードバックからの強化学習) が広く使用されているため、GPT4 や Llama3 などの最先端の LLM は、テキストの一貫性などの品質の判断を求められたときに、人間の好みと強力に一致することが期待されています。
これは有益であるように見えますが、審査員としての LLM による評価がプロンプトの指示に基づく評価のみを構成するのか、それとも微調整データと同様の高品質データに対する LLM の好みを反映しているのかは明らかではありません。
裁判官としての LLM のプロンプトが AI の判断と人間の判断の一致にどの程度の影響を与えるかを調査するために、複数の裁判官としての LLM を対象に、評価の目標品質に関する指示のレベルを上げながらプロンプトを分析しました。

さらに、代わりに品質尺度としてモデルの複雑さを使用するプロンプトフリーの方法と比較します。
当社は、LLM を使用した最先端の評価で一般的に使用される品質基準の分類を集約し、これをモデルの厳密なベンチマークとして審査員に提供します。
全体として、私たちは、裁判官としての LLM がプロンプトの非常に詳細な指示から恩恵を受けることはほとんどなく、特にテキストの品質に関して、プロンプトよりも困惑の方が人間の判断と一致する場合があることを示しています。

要約(オリジナル)

LLMs-as-a-judge is a recently popularized method which replaces human judgements in task evaluation (Zheng et al. 2024) with automatic evaluation using LLMs. Due to widespread use of RLHF (Reinforcement Learning from Human Feedback), state-of-the-art LLMs like GPT4 and Llama3 are expected to have strong alignment with human preferences when prompted for a quality judgement, such as the coherence of a text. While this seems beneficial, it is not clear whether the assessments by an LLM-as-a-judge constitute only an evaluation based on the instructions in the prompts, or reflect its preference for high-quality data similar to its fine-tune data. To investigate how much influence prompting the LLMs-as-a-judge has on the alignment of AI judgements to human judgements, we analyze prompts with increasing levels of instructions about the target quality of an evaluation, for several LLMs-as-a-judge. Further, we compare to a prompt-free method using model perplexity as a quality measure instead. We aggregate a taxonomy of quality criteria commonly used across state-of-the-art evaluations with LLMs and provide this as a rigorous benchmark of models as judges. Overall, we show that the LLMs-as-a-judge benefit only little from highly detailed instructions in prompts and that perplexity can sometimes align better with human judgements than prompting, especially on textual quality.

arxiv情報

著者 Bhuvanashree Murugadoss,Christian Poelitz,Ian Drosos,Vu Le,Nick McKenna,Carina Suzana Negreanu,Chris Parnin,Advait Sarkar
発行日 2024-08-16 14:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク