要約
現在の AI 時代では、プライバシー上の懸念から、ユーザーは AI 企業にトレーニング データセットからデータを削除するよう要求する可能性があります。
モデル所有者としてモデルを再トレーニングすると、大量の計算リソースが消費されます。
したがって、機械アンラーニングは、モデル所有者がモデルのパフォーマンスにほとんど影響を与えずに、要求されたトレーニング データまたはクラスを削除できるようにする、新しく登場したテクノロジーです。
ただし、画像やテキスト データなどの大規模な複雑なデータの場合、モデルからクラスを学習解除すると、クラスとモデル間のリンクを特定することが困難になるため、パフォーマンスが低下します。
クラスの削除が不正確であると、過剰な学習または不足した学習が発生する可能性があります。
本論文では、複雑なデータの未学習クラスを正確に定義するために、画像特徴やテキストデータのトークンではなくコンセプトの定義を適用して、未学習クラスの意味情報を表現します。
この新しい表現により、モデルとクラス間のリンクが切断され、クラスの影響が完全に消去される可能性があります。
複雑なデータの概念の影響を分析するために、ポストホック概念ボトルネック モデルと統合勾配を採用して、さまざまなクラスにわたる概念を正確に特定します。
次に、ランダムでターゲットを絞ったラベルによるデータポイズニングを利用して、アンラーニング手法を提案します。
画像分類モデルと大規模言語モデル (LLM) の両方でメソッドをテストします。
結果は、提案された方法がモデルから対象の情報を正確に消去でき、モデルのパフォーマンスを大幅に維持できることを一貫して示しています。
要約(オリジナル)
In current AI era, users may request AI companies to delete their data from the training dataset due to the privacy concerns. As a model owner, retraining a model will consume significant computational resources. Therefore, machine unlearning is a new emerged technology to allow model owner to delete requested training data or a class with little affecting on the model performance. However, for large-scaling complex data, such as image or text data, unlearning a class from a model leads to a inferior performance due to the difficulty to identify the link between classes and model. An inaccurate class deleting may lead to over or under unlearning. In this paper, to accurately defining the unlearning class of complex data, we apply the definition of Concept, rather than an image feature or a token of text data, to represent the semantic information of unlearning class. This new representation can cut the link between the model and the class, leading to a complete erasing of the impact of a class. To analyze the impact of the concept of complex data, we adopt a Post-hoc Concept Bottleneck Model, and Integrated Gradients to precisely identify concepts across different classes. Next, we take advantage of data poisoning with random and targeted labels to propose unlearning methods. We test our methods on both image classification models and large language models (LLMs). The results consistently show that the proposed methods can accurately erase targeted information from models and can largely maintain the performance of the models.
arxiv情報
著者 | Wenhan Chang,Tianqing Zhu,Heng Xu,Wenjian Liu,Wanlei Zhou |
発行日 | 2024-05-24 15:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google