Corrective Machine Unlearning

要約

機械学習モデルは、インターネットから取得した大規模なトレーニング データセットの使用により、データ整合性の課題にますます直面しています。
私たちは、一部のデータが操作されているか間違っていることを検出した場合に、モデル開発者が何ができるかを研究します。
このように操作されたデータは、バックドアされたサンプルに対する脆弱性、システムの偏り、特定の入力ドメインの精度の低下などの悪影響を引き起こす可能性があります。
現実的には、操作されたすべてのトレーニング サンプルを特定することはできず、影響を受けたデータの代表的な小さなサブセットのみにフラグを付けることができます。
私たちは、破損したデータのサブセットのみを特定し、トレーニング済みモデルに対する未知の操作によって影響を受けるデータの影響を軽減する問題として、修正機械学習を形式化します。
我々は、矯正的アンラーニングの問題には、従来のプライバシー指向のアンラーニングとは大きく異なる要件があることを実証します。
削除セットを使用しないスクラッチからの再トレーニングを含む既存のほとんどのアンラーニング手法では、効果的な修正アンラーニングのために、操作されたデータのほとんどを識別する必要があることがわかりました。
しかし、アプローチの 1 つである選択的シナプス減衰は、限られた成功しか得ておらず、私たちの設定で操作されたサンプルのほんの一部で悪影響をアンラーニングしており、今後の進歩に向けて心強い兆候を示しています。
私たちの研究が、矯正的アンラーニングのためのより良い方法の開発に向けた研究に拍車をかけ、Web スケールのトレーニングから生じるデータ整合性の課題に対処するための新しい戦略を実践者に提供できることを願っています。
コードは https://github.com/drimpossible/corrective-unlearning-bench で入手できます。

要約(オリジナル)

Machine Learning models increasingly face data integrity challenges due to the use of large-scale training datasets drawn from the Internet. We study what model developers can do if they detect that some data was manipulated or incorrect. Such manipulated data can cause adverse effects including vulnerability to backdoored samples, systemic biases, and reduced accuracy on certain input domains. Realistically, all manipulated training samples cannot be identified, and only a small, representative subset of the affected data can be flagged. We formalize Corrective Machine Unlearning as the problem of mitigating the impact of data affected by unknown manipulations on a trained model, only having identified a subset of the corrupted data. We demonstrate that the problem of corrective unlearning has significantly different requirements from traditional privacy-oriented unlearning. We find most existing unlearning methods, including retraining-from-scratch without the deletion set, require most of the manipulated data to be identified for effective corrective unlearning. However, one approach, Selective Synaptic Dampening, achieves limited success, unlearning adverse effects with just a small portion of the manipulated samples in our setting, which shows encouraging signs for future progress. We hope our work spurs research towards developing better methods for corrective unlearning and offers practitioners a new strategy to handle data integrity challenges arising from web-scale training. Code is available at https://github.com/drimpossible/corrective-unlearning-bench.

arxiv情報

著者 Shashwat Goel,Ameya Prabhu,Philip Torr,Ponnurangam Kumaraguru,Amartya Sanyal
発行日 2024-10-17 16:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク