FAST: Feature Aware Similarity Thresholding for Weak Unlearning in Black-Box Generative Models

要約

プライバシーと規制枠組みの順守に関する懸念の高まりにより、ディープ生成モデルの規制がますます重視されるようになり、これらのモデルに対する正確な制御メカニズムの絶対的な必要性が強調されています。
この緊急性は、不快、攻撃的、または有害な可能性のあるコンテンツを含む出力を生成モデルが生成する場合に特に強調されます。
これに応えて、特定の知識を選択的に忘れたり、事前トレーニングされたモデルから望ましくないデータサブセットの影響を除去したりする機械の非学習が登場しました。
ただし、最新の機械のアンラーニング アプローチでは、通常、アンラーニング中にモデル パラメーターとアーキテクチャの詳細にアクセスすることを前提としていますが、これは常に実現可能であるとは限りません。
多数の下流タスクにおいて、これらのモデルは、事前にトレーニングされたパラメーター、アーキテクチャ、およびトレーニング データにアクセスできないブラック ボックス システムとして機能します。
このようなシナリオでは、望ましくない出力をフィルタリングする可能性が実用的な代替手段になります。
この研究の主な目標は 2 つあります。1 つ目は、フィルタリング プロセスとアンラーニング プロセスの関係を解明すること、2 つ目は、ブラック ボックス システムとして特徴付けられるモデルから生成される望ましくない出力の表示を軽減することを目的とした方法論を定式化することです。
この研究の理論分析は、ブラック ボックス モデルのコンテキストでは、フィルタリングが弱い非学習の一形態として見なされる可能性があることを示しています。
私たちが提案する \textbf{\textit{Feature Aware Samelarity Thresholding(FAST)}} 手法は、潜在空間内の不要な特徴の表現を系統的にエンコードすることで、不要な出力を効果的に抑制します。

要約(オリジナル)

The heightened emphasis on the regulation of deep generative models, propelled by escalating concerns pertaining to privacy and compliance with regulatory frameworks, underscores the imperative need for precise control mechanisms over these models. This urgency is particularly underscored by instances in which generative models generate outputs that encompass objectionable, offensive, or potentially injurious content. In response, machine unlearning has emerged to selectively forget specific knowledge or remove the influence of undesirable data subsets from pre-trained models. However, modern machine unlearning approaches typically assume access to model parameters and architectural details during unlearning, which is not always feasible. In multitude of downstream tasks, these models function as black-box systems, with inaccessible pre-trained parameters, architectures, and training data. In such scenarios, the possibility of filtering undesired outputs becomes a practical alternative. The primary goal of this study is twofold: first, to elucidate the relationship between filtering and unlearning processes, and second, to formulate a methodology aimed at mitigating the display of undesirable outputs generated from models characterized as black-box systems. Theoretical analysis in this study demonstrates that, in the context of black-box models, filtering can be seen as a form of weak unlearning. Our proposed \textbf{\textit{Feature Aware Similarity Thresholding(FAST)}} method effectively suppresses undesired outputs by systematically encoding the representation of unwanted features in the latent space.

arxiv情報

著者 Subhodip Panda,Prathosh AP
発行日 2023-12-22 18:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク