Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

要約

Direct Preference Optimization (DPO) とそのバリアントは、言語モデルを人間の好みに合わせるために使用されることが増えています。
これらの方法は、好ましくない応答と比べて好ましい応答をより頻繁に生成するようにモデルを学習させるように設計されていますが、これまでの研究では、訓練中に好ましい応答の可能性がしばしば低下することが観察されています。
現在の研究は、尤度変位と呼ばれるこの直観に反する現象の原因と影響を明らかにしています。
我々は、尤度のずれが壊滅的な影響を及ぼし、確率の質量を好ましい応答から反対の意味の応答にシフトさせる可能性があることを実証します。
簡単な例として、$\texttt{Never}$ よりも $\texttt{No}$ を優先するようにモデルをトレーニングすると、$\texttt{Yes}$ の確率が大幅に増加します。
さらに、安全でないプロンプトを拒否するようにモデルを調整する場合、確率質量を好ましい拒否反応から有害な反応にシフトすることによって(たとえば、ラマ-3-8B-命令の拒否率を74.4から低下させる)、そのようなずれが意図せずに不調整につながる可能性があることを示します。
%から33.4%)。
我々は、中心化された隠れ埋め込み類似性 (CHES) スコアによって測定されるように、尤度の変位が類似の埋め込みを誘発する選好によって駆動されることを理論的に特徴付けます。
経験的に、CHES スコアを使用すると、特定のデータセット内の尤度の変位に最も寄与するトレーニング サンプルを特定できます。
これらのサンプルをフィルタリングして除去することで、実験における意図しない不整列が効果的に軽減されました。
より広範に、私たちの結果は、十分に明確な好みを持つデータを厳選することの重要性を強調しており、そのために CHES スコアが価値があると私たちは考えています。

要約(オリジナル)

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.

arxiv情報

著者 Noam Razin,Sadhika Malladi,Adithya Bhaskar,Danqi Chen,Sanjeev Arora,Boris Hanin
発行日 2024-10-11 14:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク