Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening

要約

機械学習モデルが忘れる機能である機械アンラーニングは、データプライバシー規制を遵守し、有害な情報、操作された情報、または古い情報を削除するためにますます重要になっています。
主な課題は、残りのデータに対するモデルのパフォーマンスを保護しながら、特定の情報を忘れることにあります。
現在の最先端のメソッドは良好なパフォーマンスを発揮しますが、通常、モデルのパフォーマンスを保護または復元するために、保持されたデータに対してある程度のレベルの再トレーニングが必要です。
これにより計算オーバーヘッドが追加され、トレーニング データが利用可能でアクセス可能な状態を維持することが義務付けられますが、これは実現不可能な場合があります。
対照的に、他の方法はリトレイン不要のパラダイムを採用していますが、これらのアプローチは計算コストが法外に高く、リトレインベースの対応物と同等のパフォーマンスは得られません。
選択的シナプス ダンプニング (SSD) を紹介します。これは、高速でパフォーマンスが高く、トレーニング データの長期保存を必要としない、機械のアンラーニングに対する新しい 2 ステップのポストホックな再トレーニング不要のアプローチです。
まず、SSD はトレーニング データと忘却データのフィッシャー情報行列を使用して、忘却セットにとって不釣り合いに重要なパラメーターを選択します。
第 2 に、SSD は、より広範なトレーニング データに関する忘却セットに対する相対的な重要性に比例して、これらのパラメータを弱めることによって忘却を誘発します。
ResNet18 と Vision Transformer を使用したさまざまな実験で、いくつかの既存のアンラーニング手法と比較してメソッドを評価します。
結果は、SSD のパフォーマンスが再トレーニングベースのポストホック手法と競合することを示し、再トレーニング不要のポストホックアンラーニングアプローチの実行可能性を実証しています。

要約(オリジナル)

Machine unlearning, the ability for a machine learning model to forget, is becoming increasingly important to comply with data privacy regulations, as well as to remove harmful, manipulated, or outdated information. The key challenge lies in forgetting specific information while protecting model performance on the remaining data. While current state-of-the-art methods perform well, they typically require some level of retraining over the retained data, in order to protect or restore model performance. This adds computational overhead and mandates that the training data remain available and accessible, which may not be feasible. In contrast, other methods employ a retrain-free paradigm, however, these approaches are prohibitively computationally expensive and do not perform on par with their retrain-based counterparts. We present Selective Synaptic Dampening (SSD), a novel two-step, post hoc, retrain-free approach to machine unlearning which is fast, performant, and does not require long-term storage of the training data. First, SSD uses the Fisher information matrix of the training and forgetting data to select parameters that are disproportionately important to the forget set. Second, SSD induces forgetting by dampening these parameters proportional to their relative importance to the forget set with respect to the wider training data. We evaluate our method against several existing unlearning methods in a range of experiments using ResNet18 and Vision Transformer. Results show that the performance of SSD is competitive with retrain-based post hoc methods, demonstrating the viability of retrain-free post hoc unlearning approaches.

arxiv情報

著者 Jack Foster,Stefan Schoepf,Alexandra Brintrup
発行日 2023-08-15 11:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク