Large Language Models are not Fair Evaluators

要約

我々は、候補モデルによって生成された応答の品質を採点するための審判として GPT-4 などの大規模言語モデル (LLM) を採用する評価パラダイムにおける系統的な偏りを明らかにしました。
回答候補の品質ランキングは、コンテキスト内での出現順序を変更するだけで簡単にハッキングできることがわかりました。
この操作により、評価結果を歪めることができ、一方のモデルが他方のモデルよりも大幅に優れているように見えます。たとえば、vicuna は、テストされた 80 件のクエリのうち 66 件で ChatGPT を上回る可能性があります。
この問題に対処するために、我々は 2 つのシンプルかつ効果的な校正戦略を提案します。 1) 複数の証拠の校正。評価者モデルは、評価を割り当てる前に複数の詳細な証拠を生成する必要があります。
2) バランス ポジション キャリブレーション。さまざまな注文の結果を集計して最終スコアを決定します。
広範な実験により、私たちのアプローチが評価バイアスを軽減することに成功し、その結果人間の判断とより緊密に一致することが実証されました。
より堅牢な大規模言語モデルの比較に関する今後の研究を促進するために、論文のテクニックを人間による注釈とともに使いやすいツールキット \emph{FairEval} に統合します。\footnote{\url{https://github
.com/i-Eval/FairEval}}

要約(オリジナル)

We uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score the quality of responses generated by candidate models. We find that the quality ranking of candidate responses can be easily hacked by simply altering their order of appearance in the context. This manipulation allows us to skew the evaluation result, making one model appear considerably superior to the other, e.g., vicuna could beat ChatGPT on 66 over 80 tested queries. To address this issue, we propose two simple yet effective calibration strategies: 1) Multiple Evidence Calibration, which requires the evaluator model to generate multiple detailed pieces of evidence before assigning ratings; 2) Balanced Position Calibration, which aggregates results across various orders to determine the final score. Extensive experiments demonstrate that our approach successfully mitigates evaluation bias, resulting in closer alignment with human judgments. To facilitate future research on more robust large language model comparison, we integrate the techniques in the paper into an easy-to-use toolkit \emph{FairEval}, along with the human annotations.\footnote{\url{https://github.com/i-Eval/FairEval}}

arxiv情報

著者 Peiyi Wang,Lei Li,Liang Chen,Dawei Zhu,Binghuai Lin,Yunbo Cao,Qi Liu,Tianyu Liu,Zhifang Sui
発行日 2023-05-29 07:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク