Large Language Models are not Fair Evaluators

要約

この論文では、候補モデルによって生成された応答の品質をスコアリングして比較するための審判として GPT-4 などの大規模言語モデル (LLM) を採用する評価パラダイムにおける系統的な偏りを明らかにします。
回答候補の品質ランキングは、コンテキスト内での出現順序を変更するだけで簡単にハッキングできることがわかりました。
この操作により、評価結果を歪めることができ、一方のモデルが他方のモデルよりも大幅に優れているように見えます。たとえば、Vicuna-13B は、評価者として ChatGPT を使用したテスト済みクエリ 80 件中 66 件で ChatGPT を破ることができます。
この問題に対処するために、我々は 3 つのシンプルかつ効果的な戦略を備えた調整フレームワークを提案します。 1) 複数の証拠の調整。評価者モデルは、評価を割り当てる前に複数の評価証拠を生成する必要があります。
2) バランス ポジション キャリブレーション。さまざまな注文の結果を集計して最終スコアを決定します。
3) 人間参加型キャリブレーション。各例の難易度を測定するためにバランスの取れた位置多様性エントロピーを導入し、必要に応じて人間の支援を求めます。
また、Vicuna Benchmark の質問プロンプトでは、ChatGPT と Vicuna-13B からの回答の「勝ち/引き分け/負け」の結果に手動で注釈を付けており、広範な実験により、私たちのアプローチが評価バイアスを軽減することに成功し、その結果人間の判断とより密接に一致することが実証されました。
今後の研究を促進するために、コードと人間によるアノテーションを \url{https://github.com/i-Eval/FairEval} でリリースします。

要約(オリジナル)

In this paper, we uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score and compare the quality of responses generated by candidate models. We find that the quality ranking of candidate responses can be easily hacked by simply altering their order of appearance in the context. This manipulation allows us to skew the evaluation result, making one model appear considerably superior to the other, e.g., Vicuna-13B could beat ChatGPT on 66 over 80 tested queries with ChatGPT as an evaluator. To address this issue, we propose a calibration framework with three simple yet effective strategies: 1) Multiple Evidence Calibration, which requires the evaluator model to generate multiple evaluation evidence before assigning ratings; 2) Balanced Position Calibration, which aggregates results across various orders to determine the final score; 3) Human-in-the-Loop Calibration, which introduces a balanced position diversity entropy to measure the difficulty of each example and seeks human assistance when needed. We also manually annotate the ‘win/tie/lose’ outcomes of responses from ChatGPT and Vicuna-13B in the Vicuna Benchmark’s question prompt, and extensive experiments demonstrate that our approach successfully mitigates evaluation bias, resulting in closer alignment with human judgments. We release our code and human annotation at \url{https://github.com/i-Eval/FairEval} to facilitate future research.

arxiv情報

著者 Peiyi Wang,Lei Li,Liang Chen,Zefan Cai,Dawei Zhu,Binghuai Lin,Yunbo Cao,Qi Liu,Tianyu Liu,Zhifang Sui
発行日 2023-08-30 13:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク