Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

要約

Direct Preference Optimization (DPO) は、大規模言語モデル (LLM) を人間の好みに直接的かつ堅牢に調整するための優れたアルゴリズムとして登場し、複雑なヒューマン フィードバックからの強化学習 (RLHF) に代わるより直接的な代替手段を提供します。
DPO はその有効性が有望であるにもかかわらず、RLHF でも観察される一般的な過剰最適化現象である「冗長性」という顕著な欠点に直面しています。
以前の研究では冗長性は主にデータ内の偏ったラベルに起因すると考えられていましたが、私たちはこの問題が DPO に固有のアルゴリズムの長さへの依存からも生じていると提案します。
具体的には、DPO で使用される、選択された配列と拒否された配列の間の配列レベルのカルバック・ライブラー (KL) の相違が、さまざまなトークン長に起因して報酬を過大評価または過小評価する結果となることを示唆します。
経験的に、私たちは異なるラベル長を持つデータセットを利用して、偏った報酬の存在を実証します。
次に、潜在的な長さへの依存を排除​​するために、SamPO と呼ばれる効果的なダウンサンプリング アプローチを導入します。
さまざまな規模の 3 つの LLM とさまざまな条件付きおよび制限なしのベンチマークにわたって実施された実験評価では、冗長性の軽減における SamPO の有効性が強調され、報酬の減額により DPO と比較して 5% ~ 12% の改善が達成されました。
コードには https://github.com/LuJunru/SamPO/ からアクセスできます。

要約(オリジナル)

Direct Preference Optimization (DPO) has emerged as a prominent algorithm for the direct and robust alignment of Large Language Models (LLMs) with human preferences, offering a more straightforward alternative to the complex Reinforcement Learning from Human Feedback (RLHF). Despite its promising efficacy, DPO faces a notable drawback: ‘verbosity’, a common over-optimization phenomenon also observed in RLHF. While previous studies mainly attributed verbosity to biased labels within the data, we propose that the issue also stems from an inherent algorithmic length reliance in DPO. Specifically, we suggest that the discrepancy between sequence-level Kullback-Leibler (KL) divergences between chosen and rejected sequences, used in DPO, results in overestimated or underestimated rewards due to varying token lengths. Empirically, we utilize datasets with different label lengths to demonstrate the presence of biased rewards. We then introduce an effective downsampling approach, named SamPO, to eliminate potential length reliance. Our experimental evaluations, conducted across three LLMs of varying scales and a diverse array of conditional and open-ended benchmarks, highlight the efficacy of SamPO in mitigating verbosity, achieving improvements of 5% to 12% over DPO through debaised rewards. Our codes can be accessed at: https://github.com/LuJunru/SamPO/.

arxiv情報

著者 Junru Lu,Jiazheng Li,Siyu An,Meng Zhao,Yulan He,Di Yin,Xing Sun
発行日 2024-09-30 14:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク