Targeted Forgetting of Image Subgroups in CLIP Models

要約

CLIPのような基盤モデル(FM)は、大規模な教師なし事前学習を活用することで、様々なタスクにおいてゼロショットの素晴らしい性能を実証してきた。しかし、ノイズの多いインターネット上のデータセットから有害な知識や不要な知識を受け継ぐことが多く、実世界のアプリケーションにおける信頼性が損なわれています。既存のモデル学習解除手法は、事前訓練されたデータセットへのアクセスに依存するか、粗視化された学習解除(例えばクラス全体)に焦点を当てるかのどちらかであり、細視化された学習解除には決定的なギャップが残されている。本論文では、モデルの全体的な性能を維持しつつ、事前訓練データにアクセスすることなく、クラス内の知識の特定の部分を選択的に忘れるという困難なシナリオに取り組む。我々は、過剰忘却を緩和しつつ、対象となる知識を段階的に学習解除する、新しい3段階のアプローチを提案する。これは、(1)忘れ去られるサンプル上でCLIPを微調整する忘却段階、(2)保持されたサンプル上で性能を回復させる思い出させる段階、(3)モデルスーピングを用いてゼロショット能力を回復させる回復段階から構成される。さらに、忘却、保持サンプル、未見事前学習データ間の分布の不一致を扱うために知識蒸留を導入する。CIFAR-10、ImageNet-1K、およびstyleデータセットに対する広範な実験により、我々のアプローチが、意味的に類似したサブグループや他のカテゴリに対する強力なゼロショット性能を維持しながら、特定のサブグループを効果的に学習解除することが実証され、CLIP学習解除設定の下では有効性を失うベースラインの学習解除手法を大幅に上回る。

要約(オリジナル)

Foundation models (FMs) such as CLIP have demonstrated impressive zero-shot performance across various tasks by leveraging large-scale, unsupervised pre-training. However, they often inherit harmful or unwanted knowledge from noisy internet-sourced datasets, compromising their reliability in real-world applications. Existing model unlearning methods either rely on access to pre-trained datasets or focus on coarse-grained unlearning (e.g., entire classes), leaving a critical gap for fine-grained unlearning. In this paper, we address the challenging scenario of selectively forgetting specific portions of knowledge within a class, without access to pre-trained data, while preserving the model’s overall performance. We propose a novel three-stage approach that progressively unlearns targeted knowledge while mitigating over-forgetting. It consists of (1) a forgetting stage to fine-tune the CLIP on samples to be forgotten, (2) a reminding stage to restore performance on retained samples, and (3) a restoring stage to recover zero-shot capabilities using model souping. Additionally, we introduce knowledge distillation to handle the distribution disparity between forgetting, retaining samples, and unseen pre-trained data. Extensive experiments on CIFAR-10, ImageNet-1K, and style datasets demonstrate that our approach effectively unlearns specific subgroups while maintaining strong zero-shot performance on semantically similar subgroups and other categories, significantly outperforming baseline unlearning methods, which lose effectiveness under the CLIP unlearning setting.

arxiv情報

著者 Zeliang Zhang,Gaowen Liu,Charles Fleming,Ramana Rao Kompella,Chenliang Xu
発行日 2025-06-03 17:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク