Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness

要約

最近、ヒューマン フィードバックによる強化学習 (RLHF) 手法の報酬モデルを、直接優先最適化 (DPO) やそのバリアントなどの大規模言語モデル (LLM) に置き換えることに大きな関心が集まっています。
これらのアプローチは通常、ペアごとのサンプルに対してバイナリ クロス エントロピー メカニズムを使用します。つまり、それぞれ優先応答または非優先応答に基づいて損失を最小化および最大化します。
ただし、このトレーニング戦略では報酬モデルが省略されていますが、さまざまな応答内のさまざまな嗜好度も見落とされています。
これがLLMが人間の好みを十分に理解することを妨げる重要な要因であると私たちは仮説を立てています。
この問題に対処するために、私たちは新しい自己教師あり選好度最適化 (SPO) フレームワークを提案します。このフレームワークは、アライメント損失と組み合わせた自己教師あり選好度損失を構築し、それによって LLM が選​​好度を理解する能力を向上させるのに役立ちます。
さまざまなタスクで広く使用されている 2 つのデータセットに対して広範な実験が行われています。
この結果は、SPO が既存の設定最適化手法とシームレスに統合でき、そのパフォーマンスを大幅に向上させて最先端のパフォーマンスを達成できることを示しています。
また、SPO に関する包括的な洞察を提供するために詳細な分析を実施し、その有効性を検証します。
コードは https://github.com/lijian16/SPO で入手できます。

要約(オリジナル)

Recently, there has been significant interest in replacing the reward model in Reinforcement Learning with Human Feedback (RLHF) methods for Large Language Models (LLMs), such as Direct Preference Optimization (DPO) and its variants. These approaches commonly use a binary cross-entropy mechanism on pairwise samples, i.e., minimizing and maximizing the loss based on preferred or dis-preferred responses, respectively. However, while this training strategy omits the reward model, it also overlooks the varying preference degrees within different responses. We hypothesize that this is a key factor hindering LLMs from sufficiently understanding human preferences. To address this problem, we propose a novel Self-supervised Preference Optimization (SPO) framework, which constructs a self-supervised preference degree loss combined with the alignment loss, thereby helping LLMs improve their ability to understand the degree of preference. Extensive experiments are conducted on two widely used datasets of different tasks. The results demonstrate that SPO can be seamlessly integrated with existing preference optimization methods and significantly boost their performance to achieve state-of-the-art performance. We also conduct detailed analyses to offer comprehensive insights into SPO, which verifies its effectiveness. The code is available at https://github.com/lijian16/SPO.

arxiv情報

著者 Jian Li,Haojing Huang,Yujia Zhang,Pengfei Xu,Xi Chen,Rui Song,Lida Shi,Jingwen Wang,Hao Xu
発行日 2024-09-26 12:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク