The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions

要約

大規模なデータセットをコンパクトな合成表現に凝縮するデータセット蒸留は、最新の深い学習モデルを効率的にトレーニングするための重要なソリューションとして浮上しています。
以前の調査は2023年以前に開発に焦点を当てていますが、この作業は最近の進歩を包括的にレビューし、Imagenet-1KやImagenet-21Kなどの大規模なデータセットのスケーラビリティを強調しています。
進捗状況を、いくつかの重要な方法論に分類します:軌道マッチング、勾配マッチング、分布マッチング、スケーラブルな生成アプローチ、およびデカップリング最適化メカニズム。
最近のデータセット蒸留の進歩の包括的な調査として、この調査は画期的な革新を強調しています。効率的かつ効果的な凝縮のためのSRE2Lフレームワーク、モデルの精度を大幅に向上させるソフトラベル戦略、およびパフォーマンスを維持しながら圧縮を最大化するロスレス蒸留技術。
これらの方法論的進歩を超えて、敵対的およびバックドア攻撃に対する堅牢性、非IIDデータ分布の効果的な取り扱いなど、重要な課題に対処します。
さらに、ビデオおよびオーディオ処理、マルチモーダル学習、医療イメージング、科学的コンピューティングの新しいアプリケーションを調査し、ドメインの汎用性を強調しています。
幅広いパフォーマンスの比較と実用的な研究の方向性を提供することにより、この調査では、研究者と実践者が効率的で一般化可能なデータセットの蒸留を促進するための実用的な洞察を備え、将来の革新への道を開きます。

要約(オリジナル)

Dataset distillation, which condenses large-scale datasets into compact synthetic representations, has emerged as a critical solution for training modern deep learning models efficiently. While prior surveys focus on developments before 2023, this work comprehensively reviews recent advances, emphasizing scalability to large-scale datasets such as ImageNet-1K and ImageNet-21K. We categorize progress into a few key methodologies: trajectory matching, gradient matching, distribution matching, scalable generative approaches, and decoupling optimization mechanisms. As a comprehensive examination of recent dataset distillation advances, this survey highlights breakthrough innovations: the SRe2L framework for efficient and effective condensation, soft label strategies that significantly enhance model accuracy, and lossless distillation techniques that maximize compression while maintaining performance. Beyond these methodological advancements, we address critical challenges, including robustness against adversarial and backdoor attacks, effective handling of non-IID data distributions. Additionally, we explore emerging applications in video and audio processing, multi-modal learning, medical imaging, and scientific computing, highlighting its domain versatility. By offering extensive performance comparisons and actionable research directions, this survey equips researchers and practitioners with practical insights to advance efficient and generalizable dataset distillation, paving the way for future innovations.

arxiv情報

著者 Ping Liu,Jiawei Du
発行日 2025-02-27 18:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク