Measuring memorization in RLHF for code completion

要約

ヒューマン フィードバックによる強化学習 (RLHF) は、大規模なモデルをユーザーの好みに合わせて調整するための主要な方法となっています。
トレーニングデータの記憶に関する多くの研究が行われている微調整とは異なり、記憶が RLHF アライメントプロセスにどのように影響されるか、または RLHF アライメントプロセスに導入されるかは明らかではありません。
実際のユーザー データが収集され、大規模なモデルを調整するために使用される可能性があるため、この関係を理解することが重要です。
ユーザーデータが RLHF 中に記憶され、後で吐き戻された場合、プライバシー上の懸念が生じる可能性があります。
この研究では、トレーニング データの記憶がどのように表面化し、RLHF の各フェーズを通じて伝播するかを分析します。
コード補完は大規模な言語モデルの最も一般的な使用例の 1 つであるため、私たちはコード補完モデルに焦点を当てて研究を行っています。
RLHF では、報酬モデリングと強化学習に使用されるデータが記憶される可能性が、このデータを直接微調整して調整する場合と比較して大幅に減少しますが、RLHF の微調整段階ですでに記憶されている例は、
ほとんどの場合、RLHF の後も記憶されたままになります。

要約(オリジナル)

Reinforcement learning with human feedback (RLHF) has become the dominant method to align large models to user preferences. Unlike fine-tuning, for which there are many studies regarding training data memorization, it is not clear how memorization is affected by or introduced in the RLHF alignment process. Understanding this relationship is important as real user data may be collected and used to align large models; if user data is memorized during RLHF and later regurgitated, this could raise privacy concerns. In this work, we analyze how training data memorization can surface and propagate through each phase of RLHF. We focus our study on code completion models, as code completion is one of the most popular use cases for large language models. We find that RLHF significantly decreases the chance that data used for reward modeling and reinforcement learning is memorized, in comparison to aligning via directly fine-tuning on this data, but that examples already memorized during the fine-tuning stage of RLHF, will, in the majority of cases, remain memorized after RLHF.

arxiv情報

著者 Aneesh Pappu,Billy Porter,Ilia Shumailov,Jamie Hayes
発行日 2024-06-17 16:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク