要約
機械学習モデルは、個人ユーザー データの保存に関する懸念の高まりと、バックドアやシステム バイアスなどの破損したデータの悪影響に直面しています。
Machine Unlearning は、影響を受けるトレーニング データを学習済みモデルから事後的に削除できるようにすることで、これらの問題に対処できます。
このタスクを正確に達成するには計算コストがかかります。
その結果、最近の研究では、これを近似的に解決するための不正確な非学習アルゴリズムと、これらのアルゴリズムの有効性をテストするための評価方法が提案されています。
この作業では、最初に、評価方法に必要ないくつかの基準を概説し、それらすべてを満たす既存の評価がないことを示します。
次に、クラス間混乱(IC)テストと呼ばれるより強力なブラックボックス評価方法を設計します。これは、学習中にデータを敵対的に操作して、学習手順の不十分さを検出します。
また、分析的に動機付けられた 2 つのベースライン手法 (EU-k および CF-k) も提案します。これらは、いくつかの一般的な不正確な非学習手法よりも優れています。
全体として、敵対的評価戦略が、より強力な非学習アルゴリズムの開発を導くことができるさまざまな非学習現象の分析にどのように役立つかを示します。
要約(オリジナル)
Machine Learning models face increased concerns regarding the storage of personal user data and adverse impacts of corrupted data like backdoors or systematic bias. Machine Unlearning can address these by allowing post-hoc deletion of affected training data from a learned model. Achieving this task exactly is computationally expensive; consequently, recent works have proposed inexact unlearning algorithms to solve this approximately as well as evaluation methods to test the effectiveness of these algorithms. In this work, we first outline some necessary criteria for evaluation methods and show no existing evaluation satisfies them all. Then, we design a stronger black-box evaluation method called the Interclass Confusion (IC) test which adversarially manipulates data during training to detect the insufficiency of unlearning procedures. We also propose two analytically motivated baseline methods~(EU-k and CF-k) which outperform several popular inexact unlearning methods. Overall, we demonstrate how adversarial evaluation strategies can help in analyzing various unlearning phenomena which can guide the development of stronger unlearning algorithms.
arxiv情報
著者 | Shashwat Goel,Ameya Prabhu,Amartya Sanyal,Ser-Nam Lim,Philip Torr,Ponnurangam Kumaraguru |
発行日 | 2023-02-22 12:33:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google