Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach

要約

機械学習は、モデルが特定のデータを選択的に忘れることを可能にすることによって、データ所有者の忘れられる権利を維持しようと努めている。最近の進歩は、2次情報から抽出された統計量を事前に計算・保存し、ニュートン式更新によって学習解除を実装することを提案している。しかし、これらの研究の理論的分析は、しばしば凸性と平滑性の制限的仮定に依存しており、ヘシアン行列に対するこれらの言及された演算は非常にコストがかかる。その結果、これらの研究を高次元モデルに適用することは困難となる。本論文では、効率的なヘシアンフリーの認定解除学習を提案する。我々は、再学習されたモデルと学習されたモデルの差のアフィン確率再帰近似によって計算された、各データの統計ベクトルを保持することを提案する。我々の解析はヘシアンの反転を伴わないため、非凸非平滑目的にも拡張可能である。同じ仮定の下で、我々は提案手法が、汎化、非学習保証、削除能力、計算/記憶複雑度の点で、最先端の理論研究を超える進歩を示す。忘却データに対する統計量の再学習の戦略に基づき、ベクトルの加算操作のみを必要とするため、ほぼ瞬時に学習解除を達成するアルゴリズムを開発する。実験により、提案方式が、時間/ストレージコストの点で既存の結果を桁違いに上回り、同時に精度も向上することを実証する。

要約(オリジナル)

Machine unlearning strives to uphold the data owners’ right to be forgotten by enabling models to selectively forget specific data. Recent advances suggest precomputing and storing statistics extracted from second-order information and implementing unlearning through Newton-style updates. However, the theoretical analysis of these works often depends on restrictive assumptions of convexity and smoothness, and those mentioned operations on Hessian matrix are extremely costly. As a result, applying these works to high-dimensional models becomes challenging. In this paper, we propose an efficient Hessian-free certified unlearning. We propose to maintain a statistical vector for each data, computed through affine stochastic recursion approximation of the difference between retrained and learned models. Our analysis does not involve inverting Hessian and thus can be extended to non-convex non-smooth objectives. Under same assumptions, we demonstrate advancements of proposed method beyond the state-of-the-art theoretical studies, in terms of generalization, unlearning guarantee, deletion capacity, and computation/storage complexity, and we show that the unlearned model of our proposed approach is close to or same as the retrained model. Based on the strategy of recollecting statistics for forgetting data, we develop an algorithm that achieves near-instantaneous unlearning as it only requires a vector addition operation. Experiments demonstrate that the proposed scheme surpasses existing results by orders of magnitude in terms of time/storage costs, while also enhancing accuracy.

arxiv情報

著者 Xinbao Qiao,Meng Zhang,Ming Tang,Ermin Wei
発行日 2024-06-03 15:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク