Mitigating Approximate Memorization in Language Models via Dissimilarity Learned Policy

要約

タイトル:「類似性を学習したポリシーによる言語モデルでの近似的記憶の緩和」

要約:
– 大規模言語モデル(LLMs)は多くのデータで訓練されるため、個人のプライバシーを脅かす可能性がある機密情報を含むことがある。
– LLMsは訓練データの一部を記憶し、それを適切に刺激することでそのデータを厳密に出力することを示した。
– これまでの研究は主にデータ前処理や差分プライバシー技術に焦点を当ててきたが、これらの方法は保護されるデータの構造に関する明示的・暗黙的な仮定に依存するため、問題の不完全な解決策を生じることがある。
– これを解決するために、我々はPPOを利用した強化学習アプローチを提案し、近似的記憶を軽減するためにLLMsを微調整することを提案している。
– 我々のアプローチは、BERTScoreやSacreBLEUのような負の類似スコアを報酬信号として利用し、非類似性ポリシーを学習する。
– 結果は、我々のフレームワークが高レベルの一貫性と流暢性を維持しながら、近似的記憶を効果的に軽減することを示している。また、LLMsで記憶が増大することが知られている長いコンテキストなどの様々な状況で堅牢に近似的記憶を軽減できる。

要約(オリジナル)

Large Language models (LLMs) are trained on large amounts of data, which can include sensitive information that may compromise per- sonal privacy. LLMs showed to memorize parts of the training data and emit those data verbatim when an adversary prompts appropriately. Previous research has primarily focused on data preprocessing and differential privacy techniques to address memorization or prevent verbatim memorization exclusively, which can give a false sense of privacy. However, these methods rely on explicit and implicit assumptions about the structure of the data to be protected, which often results in an incomplete solution to the problem. To address this, we propose a novel framework that utilizes a reinforcement learning approach (PPO) to fine-tune LLMs to mitigate approximate memorization. Our approach utilizes a negative similarity score, such as BERTScore or SacreBLEU, as a reward signal to learn a dissimilarity policy. Our results demonstrate that this framework effectively mitigates approximate memorization while maintaining high levels of coherence and fluency in the generated samples. Furthermore, our framework is robust in mitigating approximate memorization across various circumstances, including longer context, which is known to increase memorization in LLMs.

arxiv情報

著者 Aly M. Kassem
発行日 2023-05-02 15:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク