要約
ヒューマン フィードバックによる強化学習 (RLHF) は、大規模なモデルをユーザーの好みに合わせて調整するための主要な方法となっています。
トレーニングデータの記憶に関する多くの研究が行われている微調整とは異なり、記憶が RLHF アライメントプロセスにどのように影響されるか、または RLHF アライメントプロセスに導入されるかは明らかではありません。
実際のユーザー データが収集され、大規模なモデルを調整するために使用される可能性があるため、この関係を理解することが重要です。
ユーザーデータが RLHF 中に記憶され、後で吐き戻された場合、プライバシー上の懸念が生じる可能性があります。
RLHF に加えて、直接嗜好最適化 (DPO) や $\Psi$PO などの他の手法も、人間の嗜好から直接学習することで人気を博しており、強化学習による中間報酬モデルの最適化の必要性がなくなりました。
この研究では、トレーニング データの記憶がどのように表面化し、RLHF および直接嗜好学習の各フェーズを通じて伝播するかを分析します。
コード補完は大規模な言語モデルの最も一般的なユースケースの 1 つであるため、私たちはコード補完モデルに焦点を当てて研究を行っています。
RLHF では、報酬モデリングと強化学習に使用されるデータが記憶される可能性が、このデータを直接微調整する場合と比較して大幅に減少しますが、RLHF の微調整段階ですでに記憶されている例は、ほとんどの場合、
場合は、RLHF 後も記憶されたままになります。
対照的に、$\Psi$PO の特殊なケースである Identity Preference Optimization (IPO) を介して人間の嗜好データから直接学習して調整すると、RLHF と比較してトレーニング データが逆流する可能性が高まることがわかりました。
私たちの研究は、直接嗜好学習とは対照的に、RLHF が、大規模な言語モデルを調整する際に機密の嗜好データが逆流するリスクを軽減するより安全な方法であることを示唆しています。
私たちの結論は、複数のコード補完データセット、タスク、モデルスケールにわたって堅牢であることがわかりました。
要約(オリジナル)
Reinforcement learning with human feedback (RLHF) has become the dominant method to align large models to user preferences. Unlike fine-tuning, for which there are many studies regarding training data memorization, it is not clear how memorization is affected by or introduced in the RLHF alignment process. Understanding this relationship is important as real user data may be collected and used to align large models; if user data is memorized during RLHF and later regurgitated, this could raise privacy concerns. In addition to RLHF, other methods such as Direct Preference Optimization (DPO) and $\Psi$PO have gained popularity for learning directly from human preferences, removing the need for optimizing intermediary reward models with reinforcement learning. In this work, we analyze how training data memorization can surface and propagate through each phase of RLHF and direct preference learning. We focus our study on code completion models, as code completion is one of the most popular use cases for large language models. We find that RLHF significantly decreases the chance that data used for reward modeling and reinforcement learning is memorized in comparison to directly fine-tuning on this data, but that examples already memorized during the fine-tuning stage of RLHF, will, in the majority of cases, remain memorized after RLHF. In contrast, we find that aligning by learning directly from human preference data via a special case of $\Psi$PO, Identity Preference Optimization (IPO), increases the likelihood that training data is regurgitated compared to RLHF. Our work suggests that RLHF, as opposed to direct preference learning, is a safer way to mitigate the risk of regurgitating sensitive preference data when aligning large language models. We find our conclusions are robust across multiple code completion datasets, tasks, and model scales.
arxiv情報
著者 | Aneesh Pappu,Billy Porter,Ilia Shumailov,Jamie Hayes |
発行日 | 2024-10-25 10:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google