要約
タイトル:データセット蒸留に関する調査:手法、アプリケーション、および将来の方向性
要約:
– データセット蒸留は、トレーニングセットが増え、最新のモデルのトレーニングコストが増加するにつれ、機械学習でますます注目されています。
– 高情報密度の合成データセットを作成することにより、データセット蒸留は、持続的学習、ニューラルアーキテクチャ検索、およびプライバシー保護などの潜在的なアプリケーションを提供します。
– 最近の進展にもかかわらず、私たちはアプローチやアプリケーションについて包括的な理解が欠けています。
– 私たちの調査は、最初にデータセット蒸留の分類法を提案し、既存のアプローチを特徴づけ、そしてデータモダリティと関連するアプリケーションを系統的に調査することで、このギャップを埋めることを目的としています。
– さらに、私たちは課題をまとめ、この研究分野の将来の方向性について議論しています。
要約(オリジナル)
Dataset distillation is attracting more attention in machine learning as training sets continue to grow and the cost of training state-of-the-art models becomes increasingly high. By synthesizing datasets with high information density, dataset distillation offers a range of potential applications, including support for continual learning, neural architecture search, and privacy protection. Despite recent advances, we lack a holistic understanding of the approaches and applications. Our survey aims to bridge this gap by first proposing a taxonomy of dataset distillation, characterizing existing approaches, and then systematically reviewing the data modalities, and related applications. In addition, we summarize the challenges and discuss future directions for this field of research.
arxiv情報
著者 | Jiahui Geng,Zongxiong Chen,Yuandou Wang,Herbert Woisetschlaeger,Sonja Schimmler,Ruben Mayer,Zhiming Zhao,Chunming Rong |
発行日 | 2023-05-03 08:41:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI