Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation

要約

小規模で知覚できない攻撃に対する脆弱性により、実世界のシステムへの深層学習モデルの導入が制限されます。
敵対的トレーニングは、トレーニング時間の大幅な増加を犠牲にして、これらの攻撃に対する最も有望な戦略の 1 つであることが証明されています。
大規模な合成データを統合する傾向が続いているため、これはさらに増加すると予想されます。
したがって、精度と堅牢性を維持しながらトレーニング サンプルの数を減らす、データ中心のアプローチの必要性が生じます。
データ プルーニングとアクティブ ラーニングはディープ ラーニングの著名な研究トピックですが、現時点では敵対的トレーニングの文献ではほとんど調査されていません。
私たちはこのギャップに対処し、小さなデータセットからより大きなデータセットへのデータ重要度スコアの外挿に基づいた新しいデータプルーニング戦略を提案します。
経験的評価では、外挿ベースの枝刈りが堅牢性を維持しながらデータセットのサイズを効率的に削減できることを実証します。

要約(オリジナル)

Their vulnerability to small, imperceptible attacks limits the adoption of deep learning models to real-world systems. Adversarial training has proven to be one of the most promising strategies against these attacks, at the expense of a substantial increase in training time. With the ongoing trend of integrating large-scale synthetic data this is only expected to increase even further. Thus, the need for data-centric approaches that reduce the number of training samples while maintaining accuracy and robustness arises. While data pruning and active learning are prominent research topics in deep learning, they are as of now largely unexplored in the adversarial training literature. We address this gap and propose a new data pruning strategy based on extrapolating data importance scores from a small set of data to a larger set. In an empirical evaluation, we demonstrate that extrapolation-based pruning can efficiently reduce dataset size while maintaining robustness.

arxiv情報

著者 Björn Nieth,Thomas Altstidl,Leo Schwinn,Björn Eskofier
発行日 2024-07-11 17:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク