Adapt then Unlearn: Exploiting Parameter Space Semantics for Unlearning in Generative Adversarial Networks

要約

プライバシーと規制遵守に対する懸念の高まりにより、ディープ生成モデルの出力の規制に対する注目が高まっており、これらのモデルを効果的に制御する必要性が浮き彫りになっています。
この必要性は、生成モデルが望ましくない、不快な、または潜在的に有害なコンテンツを含む出力を生成する場合に生じます。
この課題に取り組むために、特定の学習された情報を忘れたり、トレーニングされたモデルから望ましくないデータ サブセットの影響を消去したりすることを目的とした、機械の非学習の概念が登場しました。
この作業の目的は、基礎となるトレーニング データ セットにアクセスできない事前トレーニング済み GAN からの、望ましくない特徴を含む出力の生成を防ぐことです。
私たちのアプローチは、重要な観察からインスピレーションを受けています。つまり、GAN のパラメーター空間は、特定の望ましくない機能を抑制するために利用できる意味のある方向性を示しています。
ただし、そのような指示は通常、生成されるサンプルの品質の低下をもたらします。
「Adapt-then-Unlearn」として知られる私たちの提案手法は、生成されたサンプルの品質を維持しながら、そのような望ましくない特徴を学習解除することに優れています。
この手法は 2 つの段階で展開されます。最初の段階では、ユーザーが提供したネガティブ サンプルを使用して事前トレーニングされた GAN を適応させます。一方、次の段階では、不要な機能の学習を解除することに焦点を当てます。
後のフェーズでは、反発正則化機能を組み込んだポジティブ サンプルを使用して、事前トレーニングされた GAN をトレーニングします。
このレギュラライザーは、生成されたサンプルの品質を維持しながら、モデルのパラメーターが最初の段階から適応モデルに関連付けられたパラメーターから遠ざかるように促します。
私たちの知る限り、私たちのアプローチは GAN におけるアンラーニングに対処する最初の方法です。
私たちは包括的な実験を通じて私たちの方法の有効性を検証します。

要約(オリジナル)

The increased attention to regulating the outputs of deep generative models, driven by growing concerns about privacy and regulatory compliance, has highlighted the need for effective control over these models. This necessity arises from instances where generative models produce outputs containing undesirable, offensive, or potentially harmful content. To tackle this challenge, the concept of machine unlearning has emerged, aiming to forget specific learned information or to erase the influence of undesired data subsets from a trained model. The objective of this work is to prevent the generation of outputs containing undesired features from a pre-trained GAN where the underlying training data set is inaccessible. Our approach is inspired by a crucial observation: the parameter space of GANs exhibits meaningful directions that can be leveraged to suppress specific undesired features. However, such directions usually result in the degradation of the quality of generated samples. Our proposed method, known as ‘Adapt-then-Unlearn,’ excels at unlearning such undesirable features while also maintaining the quality of generated samples. This method unfolds in two stages: in the initial stage, we adapt the pre-trained GAN using negative samples provided by the user, while in the subsequent stage, we focus on unlearning the undesired feature. During the latter phase, we train the pre-trained GAN using positive samples, incorporating a repulsion regularizer. This regularizer encourages the model’s parameters to be away from the parameters associated with the adapted model from the first stage while also maintaining the quality of generated samples. To the best of our knowledge, our approach stands as first method addressing unlearning in GANs. We validate the effectiveness of our method through comprehensive experiments.

arxiv情報

著者 Piyush Tiwary,Atri Guha,Subhodip Panda,Prathosh A. P
発行日 2023-09-25 11:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク