Mitigating the Bias of Large Language Model Evaluation

要約

最近、LLM-as-a-Judge のフレーバーで大規模言語モデル (LLM) の品質を評価する傾向があります。つまり、別の LLM を利用して現在の出力品質を評価するということです。
しかし、既存の裁判官は偏見を持っていることが証明されており、つまり、指示に従う能力を無視しながら、表面的な品質(冗長さ、流暢さなど)がより優れている答案を好む傾向にあります。
この研究では、裁判官としてのLLMのバイアスに関する体系的な研究を提案します。
具体的には、クローズドソースの裁判官モデルに対して、確率レベルとプロンプトレベルの両方で、表面的な品質の重要性を軽減するためにキャリブレーションを適用します。
オープンソースの裁判官モデルの場合、指導からは逸脱しているが表面的な品質はより優れている厳選されたネガティブサンプルを使用した対照的なトレーニングによってバイアスを軽減することを提案します。
私たちの手法をバイアス評価ベンチマークに適用したところ、実験結果では、満足のいく評価精度を維持しながら、バイアスを大幅に軽減できることがわかりました。

要約(オリジナル)

Recently, there has been a trend of evaluating the Large Language Model (LLM) quality in the flavor of LLM-as-a-Judge, namely leveraging another LLM to evaluate the current output quality. However, existing judges are proven to be biased, namely they would favor answers which present better superficial quality (such as verbosity, fluency) while ignoring the instruction following ability. In this work, we propose systematic research about the bias of LLM-as-a-Judge. Specifically, for closed-source judge models, we apply calibration to mitigate the significance of superficial quality, both on probability level and prompt level. For open-source judge models, we propose to mitigate the bias by contrastive training, with curated negative samples that deviate from instruction but present better superficial quality. We apply our methods on the bias evaluation benchmark, and experiment results show our methods mitigate the bias by a large margin while maintaining a satisfactory evaluation accuracy.

arxiv情報

著者 Hongli Zhou,Hui Huang,Yunfei Long,Bing Xu,Conghui Zhu,Hailong Cao,Muyun Yang,Tiejun Zhao
発行日 2024-09-25 09:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク