要約
データセット凝縮(DC)は、より大きなデータセットから小さく、合成のデータセットを生成する最近のクラスのデータセット圧縮方法を指します。
この合成データセットは、元のデータセットの重要な情報を保持することを目的としており、完全なデータセットでトレーニングされたものに匹敵するパフォーマンスレベルを実現できるようにトレーニングされたモデルを可能にします。
現在のほとんどのDCメソッドは、主にデータ予算が限られている高いテストパフォーマンスを達成することに関係しており、敵対的な堅牢性の問題に直接対処していません。
この作業では、圧縮データセットで訓練されたモデルに対する敵対的な堅牢性の影響を調査します。
DCメソッドから得られた圧縮データセットが、モデルに敵対的な堅牢性を伝達するのに効果的ではないことを示します。
データセットの圧縮効率と敵対的堅牢性を同時に改善するためのソリューションとして、データセットの最小限のカバー(MFC)を見つけることに基づいて、堅牢性を認識したデータセット圧縮法を提示します。
提案された方法は、(1)一般化された敵対的損失を最小限に抑えることにより、(2)MFCに敵対的なトレーニングを適用する際のDCメソッドよりも効果的であることが証明されます。
要約(オリジナル)
Dataset Condensation (DC) refers to the recent class of dataset compression methods that generate a smaller, synthetic, dataset from a larger dataset. This synthetic dataset aims to retain the essential information of the original dataset, enabling models trained on it to achieve performance levels comparable to those trained on the full dataset. Most current DC methods have mainly concerned with achieving high test performance with limited data budget, and have not directly addressed the question of adversarial robustness. In this work, we investigate the impact of adversarial robustness on models trained with compressed datasets. We show that the compressed datasets obtained from DC methods are not effective in transferring adversarial robustness to models. As a solution to improve dataset compression efficiency and adversarial robustness simultaneously, we present a robustness-aware dataset compression method based on finding the Minimal Finite Covering (MFC) of the dataset. The proposed method is (1) provably robust by minimizing the generalized adversarial loss, (2) more effective than DC methods when applying adversarial training over MFC, (3) obtained by a one-time computation and is applicable for any model.
arxiv情報
著者 | Tong Chen,Raghavendra Selvan |
発行日 | 2025-04-07 17:31:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google