Corrective Machine Unlearning

要約

機械学習モデルは、インターネットから取得した大規模なトレーニング データセットの使用により、データ整合性の課題にますます直面しています。
私たちは、一部のデータが操作されているか間違っていることを検出した場合に、モデル開発者が何ができるかを研究します。
このように操作されたデータは、バックドアされたサンプルに対する脆弱性、体系的なバイアス、および一般に特定の入力ドメインの精度の低下などの悪影響を引き起こす可能性があります。
多くの場合、操作されたトレーニング サンプルがすべて不明であるため、影響を受けたデータの代表的な小さなサブセットのみにフラグが立てられます。
私たちは、「修正的な機械の非学習」を、おそらく影響を受けるサンプルのサブセットしか知らない、トレーニングされたモデルに対する未知の操作によって影響を受けるデータの影響を軽減する問題として形式化します。
我々は、矯正的アンラーニングの問題には、従来のプライバシー指向のアンラーニングとは大きく異なる要件があることを実証します。
ゴールドスタンダードであるスクラッチからの再トレーニングを含む既存のほとんどのアンラーニング手法では、効果的な修正アンラーニングのために、操作されたデータのほとんどを特定する必要があることがわかりました。
ただし、アプローチの 1 つである SSD は、操作されたサンプルのほんの一部で悪影響を学習解除することに限定的な成功を収めており、この設定の扱いやすさを示しています。
私たちの研究が、矯正的アンラーニングのためのより良い方法の開発に向けた研究に拍車をかけ、Web スケールのトレーニングから生じるデータ整合性の課題に対処するための新しい戦略を実践者に提供できることを願っています。

要約(オリジナル)

Machine Learning models increasingly face data integrity challenges due to the use of large-scale training datasets drawn from the internet. We study what model developers can do if they detect that some data was manipulated or incorrect. Such manipulated data can cause adverse effects like vulnerability to backdoored samples, systematic biases, and in general, reduced accuracy on certain input domains. Often, all manipulated training samples are not known, and only a small, representative subset of the affected data is flagged. We formalize ‘Corrective Machine Unlearning’ as the problem of mitigating the impact of data affected by unknown manipulations on a trained model, possibly knowing only a subset of impacted samples. We demonstrate that the problem of corrective unlearning has significantly different requirements from traditional privacy-oriented unlearning. We find most existing unlearning methods, including the gold-standard retraining-from-scratch, require most of the manipulated data to be identified for effective corrective unlearning. However, one approach, SSD, achieves limited success in unlearning adverse effects with just a small portion of the manipulated samples, showing the tractability of this setting. We hope our work spurs research towards developing better methods for corrective unlearning and offers practitioners a new strategy to handle data integrity challenges arising from web-scale training.

arxiv情報

著者 Shashwat Goel,Ameya Prabhu,Philip Torr,Ponnurangam Kumaraguru,Amartya Sanyal
発行日 2024-02-21 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク