Assistant-Guided Mitigation of Teacher Preference Bias in LLM-as-a-Judge

要約

LLM-as-a-judgeは、GPT-4などの大規模な言語モデル(LLM)を採用して、LLM生成された反応の質を評価し、費用対効果と人間の評価との強い整合で人気を博しています。
ただし、強力な教師モデルによって生成された評価データを使用してプロキシジャッジモデルのトレーニングは、以前に見落とされがちな重要な問題を紹介します。教師の好みバイアスは、プロキシジャッジモデルが教師モデルからの応答に対する偏った優先権を学習します。
この問題に取り組むために、トレーニングデータを補完するために、教師モデルの応答に偏っていない追加のアシスタントモデルを組み込んだ新しい設定を提案します。
このセットアップに基づいて、トレーニングデータのラベルとフィードバックの両方からDebiasに設計された3段階のフレームワークであるAgde-Judgeを紹介します。
広範な実験は、AGDEの裁判官が6つの評価ベンチマークで強力なパフォーマンスを維持しながら、教師の好みのバイアスを効果的に減らすことを示しています。
コードはhttps://github.com/liuz233/agde-judgeで入手できます。

要約(オリジナル)

LLM-as-a-Judge employs large language models (LLMs), such as GPT-4, to evaluate the quality of LLM-generated responses, gaining popularity for its cost-effectiveness and strong alignment with human evaluations. However, training proxy judge models using evaluation data generated by powerful teacher models introduces a critical yet previously overlooked issue: teacher preference bias, where the proxy judge model learns a biased preference for responses from the teacher model. To tackle this problem, we propose a novel setting that incorporates an additional assistant model, which is not biased toward the teacher model’s responses, to complement the training data. Building on this setup, we introduce AGDe-Judge, a three-stage framework designed to debias from both the labels and feedbacks in the training data. Extensive experiments demonstrate that AGDe-Judge effectively reduces teacher preference bias while maintaining strong performance across six evaluation benchmarks. Code is available at https://github.com/Liuz233/AGDe-Judge.

arxiv情報

著者 Zhuo Liu,Moxin Li,Xun Deng,Qifan Wang,Fuli Feng
発行日 2025-06-04 16:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク