要約
トレーニング セットが増大し続け、最先端のモデルをトレーニングするコストがますます高くなるにつれて、データセットの蒸留は機械学習においてますます注目を集めています。
データセットの蒸留は、高い情報密度でデータセットを合成することにより、継続的な学習、ニューラル アーキテクチャの検索、プライバシー保護のサポートなど、さまざまな潜在的なアプリケーションを提供します。
最近の進歩にもかかわらず、私たちはアプローチと応用についての全体的な理解を欠いています。
私たちの調査は、まずデータセット抽出の分類を提案し、既存のアプローチを特徴付け、次にデータ モダリティと関連アプリケーションを体系的にレビューすることで、このギャップを埋めることを目的としています。
さらに、課題を要約し、この研究分野の将来の方向性について議論します。
要約(オリジナル)
Dataset distillation is attracting more attention in machine learning as training sets continue to grow and the cost of training state-of-the-art models becomes increasingly high. By synthesizing datasets with high information density, dataset distillation offers a range of potential applications, including support for continual learning, neural architecture search, and privacy protection. Despite recent advances, we lack a holistic understanding of the approaches and applications. Our survey aims to bridge this gap by first proposing a taxonomy of dataset distillation, characterizing existing approaches, and then systematically reviewing the data modalities, and related applications. In addition, we summarize the challenges and discuss future directions for this field of research.
arxiv情報
著者 | Jiahui Geng,Zongxiong Chen,Yuandou Wang,Herbert Woisetschlaeger,Sonja Schimmler,Ruben Mayer,Zhiming Zhao,Chunming Rong |
発行日 | 2023-08-23 15:12:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google