Accelerating Unbiased LLM Evaluation via Synthetic Feedback

要約

新しい大手言語モデル(LLMS)を開発する場合、重要なステップは、多くの場合、外部フィードバックに基づいて参照モデルに対して勝率を計算することにより、最終的なパフォーマンスを評価することです。
人間のフィードバックは、特に一貫性、読みやすさ、人間の期待との調整などの微妙な資質を捉えるためのゴールドスタンダードです。
ただし、人間の評価はコストがかかります – 大規模なハイテク企業であっても – アクティブユーザーと一緒に行われると、ユーザーエクスペリエンスに悪影響を与える可能性があります。
有望な代替案は、合成フィードバックです。ここでは、評価は報酬モデルを含む他の大規模な言語モデルによって行われます。
これにより、費用のかかる人間の注釈の必要性が排除されますが、評価プロセスを歪める可能性のあるバイアスが導入されます。
この作業では、人間と合成のフィードバックを統合して人間の注釈への依存を減らしながら、偏りのない勝率計算を維持する統計的に原則的なフレームワークを提案します。
私たちの実験は、既製の合成評価者で最大12.2%、微調ューされたバリアントで最大24.8%の人間の注釈の減少を示しています。
一般化可能でスケーラブルで、ハイパーパラメーターの調整がないこととは別に、当社の方法は予測可能な注釈の節約を提供します。これは、データ依存特性に基づいて推定できます。

要約(オリジナル)

When developing new large language models (LLMs), a key step is evaluating their final performance, often by computing the win-rate against a reference model based on external feedback. Human feedback is the gold standard, particularly for capturing nuanced qualities like coherence, readability, and alignment with human expectations. However, human evaluations are costly — even for large tech companies — and when conducted with active users, they may negatively impact user experience. A promising alternative is synthetic feedback, where evaluations are conducted by other large language models, including reward models. While this eliminates the need for costly human annotations, it introduces biases that may distort the evaluation process. In this work, we propose a statistically principled framework that integrates human and synthetic feedback to reduce reliance on human annotations while maintaining unbiased win-rate calculations. Our experiments demonstrate a reduction in human annotations by up to 12.2% with an off-the-shelf synthetic evaluator and up to 24.8% with a finetuned variant. Apart from being generalizable, scalable, and free of hyper-parameter tuning, our method offers predictable annotation savings, which can be estimated based on data-dependent characteristics.

arxiv情報

著者 Zhaoyi Zhou,Yuda Song,Andrea Zanette
発行日 2025-02-25 18:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク