DREAM+: Efficient Dataset Distillation by Bidirectional Representative Matching

要約

データセットの蒸留は、元の大規模データセットと比較して同様のトレーニング パフォーマンスを持つコンパクトなデータセットを作成する上で重要な役割を果たします。
これは、データ ストレージとトレーニング コストの課題に対処するために不可欠です。
一般的な方法では、合成画像の勾配、埋め込み分布、またはトレーニング軌跡をサンプリングされた元の画像の軌跡と照合することで、知識の伝達が容易になります。
さまざまなマッチングの目的がありますが、現在、元の画像を選択する戦略は単純なランダム サンプリングに限定されています。
私たちは、ランダムサンプリングでは選択されたサンプル分布の均一性が見落とされ、その結果、マッチング対象にノイズが含まれたり偏ったりする可能性があると主張します。
さらに、サンプルの多様性もランダム サンプリングによって制限されません。
さらに、現在の方法は主に 1 次元のマッチングに焦点を当てており、情報が十分に活用されていません。
これらの課題に対処するために、我々は、双方向マッチング用に代表的な元の画像を選択する、双方向 REpresentAtive Matching によるデータセット蒸留 (DREAM+) と呼ばれる新しいマッチング戦略を提案します。
DREAM+ は、さまざまな主流のデータセット蒸留フレームワークに適用でき、パフォーマンスに影響を与えることなく、蒸留の反復回数を 15 分の 1 以上大幅に削減します。
十分なトレーニング時間があれば、DREAM+ はパフォーマンスをさらに向上させ、最先端の結果を達成できます。
コードは github.com/NUS-HPC-AI-Lab/DREAM+ でリリースされました。

要約(オリジナル)

Dataset distillation plays a crucial role in creating compact datasets with similar training performance compared with original large-scale ones. This is essential for addressing the challenges of data storage and training costs. Prevalent methods facilitate knowledge transfer by matching the gradients, embedding distributions, or training trajectories of synthetic images with those of the sampled original images. Although there are various matching objectives, currently the strategy for selecting original images is limited to naive random sampling. We argue that random sampling overlooks the evenness of the selected sample distribution, which may result in noisy or biased matching targets. Besides, the sample diversity is also not constrained by random sampling. Additionally, current methods predominantly focus on single-dimensional matching, where information is not fully utilized. To address these challenges, we propose a novel matching strategy called Dataset Distillation by Bidirectional REpresentAtive Matching (DREAM+), which selects representative original images for bidirectional matching. DREAM+ is applicable to a variety of mainstream dataset distillation frameworks and significantly reduces the number of distillation iterations by more than 15 times without affecting performance. Given sufficient training time, DREAM+ can further improve the performance and achieve state-of-the-art results. We have released the code at github.com/NUS-HPC-AI-Lab/DREAM+.

arxiv情報

著者 Yanqing Liu,Jianyang Gu,Kai Wang,Zheng Zhu,Kaipeng Zhang,Wei Jiang,Yang You
発行日 2023-10-23 15:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク