ROPO: Robust Preference Optimization for Large Language Models

要約

大規模言語モデル (LLM) が有益で無害な応答を生成できるようにするには、好みの調整が極めて重要です。
ただし、プリファレンス調整のパフォーマンスは、プリファレンス データに蔓延するノイズの影響を非常に受けやすくなります。
この問題に対する最近の取り組みでは、ノイズの存在を実際に減らすことができずにノイズの影響をわずかに軽減するか、報酬の誤った一般化を招きやすいコストのかかる教師 LLM に依存しています。
これらの課題に対処するために、外部モデルの助けを借りずにノイズ耐性とノイズのあるサンプルのフィルタリングを統合する反復的な調整アプローチである RObust Preference Optimization (ROPO) フレームワークを提案します。
具体的には、ROPO は制約付き最適化問題を繰り返し解決します。この問題では、各サンプルに品質を意識した重みを動的に割り当て、重みの合計を保持するサンプル数に制限します。
ノイズ耐性のあるトレーニングと効果的なノイズ識別のために、不確実性の高いサンプルの勾配を抑制することでロバストな損失を導き出します。
我々は、ノイズの多いサンプルとクリーンなサンプルを区別するためには、導出された損失が重要であることを経験的にも理論的にも実証します。
さらに、派生した損失に触発されて、破棄されたクエリ内の潜在的な重要な情報を補償するための、ロバストネスに基づく拒否サンプリング手法を提案します。
Mistral-7B および Llama-2-7B を使用した 3 つの広く使用されているデータセットでの実験では、ROPO が既存の選好調整手法を大幅に上回り、ノイズ レートが増加するにつれてその優位性が高まることが実証されました。

要約(オリジナル)

Preference alignment is pivotal for empowering large language models (LLMs) to generate helpful and harmless responses. However, the performance of preference alignment is highly sensitive to the prevalent noise in the preference data. Recent efforts for this problem either marginally alleviate the impact of noise without the ability to actually reduce its presence, or rely on costly teacher LLMs prone to reward misgeneralization. To address these challenges, we propose the RObust Preference Optimization (ROPO) framework, an iterative alignment approach that integrates noise-tolerance and filtering of noisy samples without the aid of external models. Specifically, ROPO iteratively solves a constrained optimization problem, where we dynamically assign a quality-aware weight for each sample and constrain the sum of the weights to the number of samples we intend to retain. For noise-tolerant training and effective noise identification, we derive a robust loss by suppressing the gradients of samples with high uncertainty. We demonstrate both empirically and theoretically that the derived loss is critical for distinguishing noisy samples from clean ones. Furthermore, inspired by our derived loss, we propose a robustness-guided rejection sampling technique to compensate for the potential important information in discarded queries. Experiments on three widely-used datasets with Mistral-7B and Llama-2-7B demonstrate that ROPO significantly outperforms existing preference alignment methods, with its superiority growing as the noise rate increases.

arxiv情報

著者 Xize Liang,Chao Chen,Shuang Qiu,Jie Wang,Yue Wu,Zhihang Fu,Zhihao Shi,Feng Wu,Jieping Ye
発行日 2024-05-28 17:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク