Potion: Towards Poison Unlearning

要約

トレーニング データセットにポイズン トリガーを導入するなど、機械学習システムに対する悪意のある攻撃者による敵対的攻撃は、重大なリスクをもたらします。
実際には、汚染されたデータのサブセットしか識別できない場合、このような攻撃を解決する際の課題が生じます。
これには、利用可能なポイズン データのサブセットのみを使用して、すでにトレーニングされたモデルからポイズン トリガーを削除する、つまり学習を解除する方法の開発が必要です。
このタスクの要件は、モデルによって忘れられるすべてのデータが既知であるプライバシーに重点を置いたアンラーニングから大きく逸脱しています。
これまでの研究では、未発見の毒入りサンプルが確立された非学習手法の失敗につながることが示されており、選択的シナプス減衰(SSD)という 1 つの手法のみが限定的な成功を収めています。
未発見の毒サンプルによりモデルに毒トリガーが再導入されるため、特定された毒を除去した後の完全な再トレーニングでも、この課題に対処することはできません。
私たちの取り組みは、毒のアンラーニングの最先端を進めるための 2 つの重要な課題に取り組んでいます。
まず、モデルの保護と非学習パフォーマンスを大幅に向上させる、SSD に基づく新しい外れ値耐性手法を紹介します。
2 番目に、ポイズン トリガー中和 (PTN) 検索を導入します。これは、高速で並列化可能なハイパーパラメータ検索であり、特徴的な「非学習とモデル保護」のトレードオフを利用して、忘却セットのサイズが不明で保持セットのサイズが不明な設定で適切なハイパーパラメータを見つけます。
汚染された。
CIFAR10 では ResNet-9 を、CIFAR100 では WideResNet-28×10 を使用して、貢献度のベンチマークを行います。
実験結果は、SSD が 83.41%、完全な再トレーニングが 40.68% であるのに比べ、私たちの方法は 93.72% の毒を治癒することを示しています。
私たちはこれを達成しながら、未学習によって引き起こされるモデル精度の平均低下を 5.68% (SSD) から 1.41% (弊社) に削減しました。

要約(オリジナル)

Adversarial attacks by malicious actors on machine learning systems, such as introducing poison triggers into training datasets, pose significant risks. The challenge in resolving such an attack arises in practice when only a subset of the poisoned data can be identified. This necessitates the development of methods to remove, i.e. unlearn, poison triggers from already trained models with only a subset of the poison data available. The requirements for this task significantly deviate from privacy-focused unlearning where all of the data to be forgotten by the model is known. Previous work has shown that the undiscovered poisoned samples lead to a failure of established unlearning methods, with only one method, Selective Synaptic Dampening (SSD), showing limited success. Even full retraining, after the removal of the identified poison, cannot address this challenge as the undiscovered poison samples lead to a reintroduction of the poison trigger in the model. Our work addresses two key challenges to advance the state of the art in poison unlearning. First, we introduce a novel outlier-resistant method, based on SSD, that significantly improves model protection and unlearning performance. Second, we introduce Poison Trigger Neutralisation (PTN) search, a fast, parallelisable, hyperparameter search that utilises the characteristic ‘unlearning versus model protection’ trade-off to find suitable hyperparameters in settings where the forget set size is unknown and the retain set is contaminated. We benchmark our contributions using ResNet-9 on CIFAR10 and WideResNet-28×10 on CIFAR100. Experimental results show that our method heals 93.72% of poison compared to SSD with 83.41% and full retraining with 40.68%. We achieve this while also lowering the average model accuracy drop caused by unlearning from 5.68% (SSD) to 1.41% (ours).

arxiv情報

著者 Stefan Schoepf,Jack Foster,Alexandra Brintrup
発行日 2024-08-16 17:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク