From Lists to Emojis: How Format Bias Affects Model Alignment

要約

この論文では、人間のフィードバック(RLHF)からの強化学習における形式バイアスを研究します。
人間の評価者、GPT-4、およびトップランクモデルを含む多くの広く使用されている好みモデルが、報酬ベンチベンチマークで、リスト、リンク、太字、絵文字、絵文字などの特定の形式パターンに強いバイアスを示すことを観察します。
さらに、大規模な言語モデル(LLMS)は、これらのバイアスを活用して、AlpacaevalやLMSYS Chatbot Arenaなどの一般的なベンチマークでより高いランキングを達成できます。
これの注目すべき例の1つは、冗長性のバイアスです。現在の選好モデルは、品質が短く競合する応答と等しい場合でも、より包括的なと思われるより長い応答を支持します。
ただし、冗長性を超えた形式のバイアスは、文献ではほとんど露出度が低いままです。
この作業では、一般的に認識されている長さのバイアスを超えて、好み学習におけるバイアスの研究を拡張し、より広い範囲の形式バイアスの包括的な分析を提供します。
さらに、少量のバイアスデータ(1%未満)で、報酬モデルに重要なバイアスを注入できることを示しています。
さらに、これらの形式バイアスは、応答の品質を改善するよりも形式を操作する方が簡単であるため、Best-of-nサンプリングやオンライン反復DPOなどの下流のアライメントアルゴリズムによって簡単に悪用することもできます。
私たちの調査結果は、アライメントアルゴリズムを設計し、モデルを評価するために、形式とコンテンツを解く必要性を強調しています。

要約(オリジナル)

In this paper, we study format biases in reinforcement learning from human feedback (RLHF). We observe that many widely-used preference models, including human evaluators, GPT-4, and top-ranking models on the RewardBench benchmark, exhibit strong biases towards specific format patterns, such as lists, links, bold text, and emojis. Furthermore, large language models (LLMs) can exploit these biases to achieve higher rankings on popular benchmarks like AlpacaEval and LMSYS Chatbot Arena. One notable example of this is verbosity bias, where current preference models favor longer responses that appear more comprehensive, even when their quality is equal to or lower than shorter, competing responses. However, format biases beyond verbosity remain largely underexplored in the literature. In this work, we extend the study of biases in preference learning beyond the commonly recognized length bias, offering a comprehensive analysis of a wider range of format biases. Additionally, we show that with a small amount of biased data (less than 1%), we can inject significant bias into the reward model. Moreover, these format biases can also be easily exploited by downstream alignment algorithms, such as best-of-n sampling and online iterative DPO, as it is usually easier to manipulate the format than to improve the quality of responses. Our findings emphasize the need to disentangle format and content both for designing alignment algorithms and evaluating models.

arxiv情報

著者 Xuanchang Zhang,Wei Xiong,Lichang Chen,Tianyi Zhou,Heng Huang,Tong Zhang
発行日 2025-05-23 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク