要約
嗜好学習アルゴリズム (RLHF や DPO など) は、LLM を操作して人間により好まれる世代を生成するために頻繁に使用されますが、その内部動作についての理解はまだ限られています。
この研究では、優先順位の学習によってモデルがトレーニングされ、ランキングの精度によって測定され、優先度の低い出力よりも優先度の高い出力に高い尤度が割り当てられるという従来の通念を研究します。
驚くべきことに、最先端の選好調整モデルのほとんどは、一般的な選好データセットで 60% 未満のランキング精度を達成していることがわかりました。
さらに、DPO または RLHF 目標を完全に最適化した場合に、好みに合わせて調整された LLM が達成する理想的なランキング精度を導き出します。
我々は、既存のモデルが重大な位置合わせギャップ、つまり、観察されたランキング精度と理想化されたランキング精度との間にギャップを示していることを実証します。
私たちは、この不一致の原因を DPO の目的にあると考えます。DPO の目的は、経験的にも理論的にも、参照モデルの軽度のランキング エラーを修正するのには不向きであり、特定の嗜好データポイントの学習の難しさを定量化するためのシンプルで効率的な公式を導き出します。
最後に、モデルが目的で使用される参照モデルに近い場合、ランキングの精度が経験的に一般的な勝率指標と強く相関することを実証し、オンポリシー (RLHF など) とオフポリシーの違いをさらに明らかにします (
例: DPO) 嗜好学習アルゴリズム。
要約(オリジナル)
Preference learning algorithms (e.g., RLHF and DPO) are frequently used to steer LLMs to produce generations that are more preferred by humans, but our understanding of their inner workings is still limited. In this work, we study the conventional wisdom that preference learning trains models to assign higher likelihoods to more preferred outputs than less preferred outputs, measured via ranking accuracy. Surprisingly, we find that most state-of-the-art preference-tuned models achieve a ranking accuracy of less than 60% on common preference datasets. We furthermore derive the idealized ranking accuracy that a preference-tuned LLM would achieve if it optimized the DPO or RLHF objective perfectly. We demonstrate that existing models exhibit a significant alignment gap — i.e., a gap between the observed and idealized ranking accuracies. We attribute this discrepancy to the DPO objective, which is empirically and theoretically ill-suited to fix even mild ranking errors in the reference model, and derive a simple and efficient formula for quantifying the difficulty of learning a given preference datapoint. Finally, we demonstrate that ranking accuracy strongly correlates with the empirically popular win rate metric when the model is close to the reference model used in the objective, shedding further light on the differences between on-policy (e.g., RLHF) and off-policy (e.g., DPO) preference learning algorithms.
arxiv情報
著者 | Angelica Chen,Sadhika Malladi,Lily H. Zhang,Xinyi Chen,Qiuyi Zhang,Rajesh Ranganath,Kyunghyun Cho |
発行日 | 2024-10-31 14:32:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google