Robust Preference Optimization with Provable Noise Tolerance for LLMs

要約

好みの調整は、大規模言語モデル (LLM) が人間の価値観に準拠した応答を生成できるようにすることを目的としています。これは、一般的な AI システムの開発に不可欠です。
ランキングベースの手法 (アライメントアプローチの有望なクラス) は、好ましい応答と不好な応答の間の対数尤度マージンを最適化することにより、応答ペアを含むデータセットから人間の好みを学習します。
ただし、アノテーターの好みには固有の違いがあるため、応答ペアの比較のランク付けラベルにはノイズが含まれることは避けられません。
これは、既存のランキングベースの手法の信頼性を著しく損なうものです。
この問題に対処するために、我々はノイズ耐性が証明されている選好調整方法、すなわち RObust 選好最適化 (ROPO) を提案します。
私たちの知る限り、ROPO はノイズ耐性が保証された最初の優先調整方法です。
ROPO の重要なアイデアは、応答間の対数尤度マージンに基づいて、ラベルの不確実性が高い応答ペアに保守的な勾配重みを動的に割り当てることです。
ノイズの多いサンプルの勾配を効果的に抑制することにより、当社の重み付け戦略は、ノイズの存在や割合に関係なく、予想されるリスクが同じ勾配方向を持つことを保証します。
サイズが 2.8B から 13B までの 4 つの基本モデルを使用した 3 つのオープンエンドのテキスト生成タスクの実験により、ROPO が既存のランキングベースの手法を大幅に上回ることが実証されました。

要約(オリジナル)

The preference alignment aims to enable large language models (LLMs) to generate responses that conform to human values, which is essential for developing general AI systems. Ranking-based methods — a promising class of alignment approaches — learn human preferences from datasets containing response pairs by optimizing the log-likelihood margins between preferred and dis-preferred responses. However, due to the inherent differences in annotators’ preferences, ranking labels of comparisons for response pairs are unavoidably noisy. This seriously hurts the reliability of existing ranking-based methods. To address this problem, we propose a provably noise-tolerant preference alignment method, namely RObust Preference Optimization (ROPO). To the best of our knowledge, ROPO is the first preference alignment method with noise-tolerance guarantees. The key idea of ROPO is to dynamically assign conservative gradient weights to response pairs with high label uncertainty, based on the log-likelihood margins between the responses. By effectively suppressing the gradients of noisy samples, our weighting strategy ensures that the expected risk has the same gradient direction independent of the presence and proportion of noise. Experiments on three open-ended text generation tasks with four base models ranging in size from 2.8B to 13B demonstrate that ROPO significantly outperforms existing ranking-based methods.

arxiv情報

著者 Xize Liang,Chao Chen,Jie Wang,Yue Wu,Zhihang Fu,Zhihao Shi,Feng Wu,Jieping Ye
発行日 2024-04-05 13:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク