Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

要約

言語モデルは、整合性と評価における人間の好みの判断のプロキシとして機能しますが、系統的な誤りを示し、実質的な資質よりも表面的なパターンを優先します。
このバイアスは、長さ、構造、スタイルなどの機能に過度に依存していると明らかになり、報酬のハッキングや信頼できない評価などの問題につながります。
証拠は、これらのバイアスが人間のトレーニングデータのアーティファクトに由来することを示唆しています。
この作業では、長さ、構造、専門用語、sycophancy、あいまいさの言語モデル世代の5つの特異な特徴にわたる5つの特異な特徴にわたるトレーニングデータバイアスと優先モデルの誤りとの関係を体系的に調査します。
制御された反事実ペアを使用して、最初に、優先モデルが拡大バイアス(スキュー)で応答を促進する範囲を定量化し、この優先性がインスタンスの60%以上で発生し、モデルの好みが人間の好みと比較して高い容疑者(〜40%)を示します。
特に、バイアス機能は、人間の好みラベル(平均R_Human = -0.12)に対する軽度の負の相関のみを示していますが、強力な報酬モデルのラベルと中程度の強い正の相関を示します(平均R_Model = +0.36)。
これらの問題を軽減するために、合成された対照的な例を使用して、反事実的データ増強(CDA)に基づいて、単純なトレーニング後の方法を提案します。
CDAでの微調整モデルは、平均誤りが39.4%から32.5%に減少し、平均絶対スキューの差は20.5%から10.0%に減少し、全体的な報酬ベンチのパフォーマンスを維持し、ターゲットを絞ったデビアスが信頼できる優先モデルの構築に効果的であることを示しています。

要約(オリジナル)

Language models serve as proxies for human preference judgements in alignment and evaluation, yet they exhibit systematic miscalibration, prioritizing superficial patterns over substantive qualities. This bias manifests as overreliance on features like length, structure, and style, leading to issues like reward hacking and unreliable evaluations. Evidence suggests these biases originate in artifacts in human training data. In this work, we systematically investigate the relationship between training data biases and preference model miscalibration across five idiosyncratic features of language model generations: length, structure, jargon, sycophancy and vagueness. Using controlled counterfactual pairs, we first quantify the extent to which preference models favor responses with magnified biases (skew), finding this preference occurs in >60% of instances, and model preferences show high miscalibration (~40%) compared to human preferences. Notably, bias features only show mild negative correlations to human preference labels (mean r_human = -0.12) but show moderately strong positive correlations with labels from a strong reward model (mean r_model = +0.36), suggesting that models may overrely on spurious cues. To mitigate these issues, we propose a simple post-training method based on counterfactual data augmentation (CDA) using synthesized contrastive examples. Finetuning models with CDA reduces average miscalibration from 39.4% to 32.5% and average absolute skew difference from 20.5% to 10.0%, while maintaining overall RewardBench performance, showing that targeted debiasing is effective for building reliable preference models.

arxiv情報

著者 Anirudh Bharadwaj,Chaitanya Malaviya,Nitish Joshi,Mark Yatskar
発行日 2025-06-05 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク