Finding NeMo: Localizing Neurons Responsible For Memorization in Diffusion Models

要約

拡散モデル (DM) は、非常に詳細で高品質の画像を生成します。
その力は、通常、コンテンツ作成者からの適切な帰属や同意なしにインターネットから収集された大量のデータに対する広範なトレーニングから生まれます。
残念ながら、DM は潜在的に機密性の高いトレーニング画像や著作権で保護されたトレーニング画像を推論時に記憶し、後で複製する可能性があるため、この手法ではプライバシーと知的財産権の懸念が生じます。
以前の取り組みでは、拡散プロセスへの入力を変更して、DM が推論中に記憶されたサンプルを生成しないようにするか、記憶されたデータをトレーニングから完全に削除することで、この問題を回避していました。
これらは、DM が安全で常に監視されている環境で開発および展開されている場合には実行可能なソリューションですが、攻撃者が安全策を回避するリスクがあり、DM 自体が公開された場合には効果がありません。
この問題を解決するために、個々のデータ サンプルの記憶を DM の相互注意層のニューロン レベルまで局所化する最初の方法である NeMo を導入します。
私たちの実験を通じて、多くの場合、単一のニューロンが特定のトレーニング サンプルの記憶を担当しているという興味深い発見が得られました。
これらの記憶ニューロンを非アクティブ化することで、推論時のトレーニング データの複製を回避し、生成される出力の多様性を高め、プライベート データや著作権で保護されたデータの漏洩を軽減できます。
このようにして、当社の NeMo は、DM のより責任ある展開に貢献します。

要約(オリジナル)

Diffusion models (DMs) produce very detailed and high-quality images. Their power results from extensive training on large amounts of data, usually scraped from the internet without proper attribution or consent from content creators. Unfortunately, this practice raises privacy and intellectual property concerns, as DMs can memorize and later reproduce their potentially sensitive or copyrighted training images at inference time. Prior efforts prevent this issue by either changing the input to the diffusion process, thereby preventing the DM from generating memorized samples during inference, or removing the memorized data from training altogether. While those are viable solutions when the DM is developed and deployed in a secure and constantly monitored environment, they hold the risk of adversaries circumventing the safeguards and are not effective when the DM itself is publicly released. To solve the problem, we introduce NeMo, the first method to localize memorization of individual data samples down to the level of neurons in DMs’ cross-attention layers. Through our experiments, we make the intriguing finding that in many cases, single neurons are responsible for memorizing particular training samples. By deactivating these memorization neurons, we can avoid the replication of training data at inference time, increase the diversity in the generated outputs, and mitigate the leakage of private and copyrighted data. In this way, our NeMo contributes to a more responsible deployment of DMs.

arxiv情報

著者 Dominik Hintersdorf,Lukas Struppek,Kristian Kersting,Adam Dziedzic,Franziska Boenisch
発行日 2024-06-04 14:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク