Latent Dataset Distillation with Diffusion Models

要約

機械学習の有効性は従来、ますます大規模になるデータセットの利用可能性に依存してきました。
ただし、大規模なデータセットではストレージの問題が発生し、影響のないサンプルが含まれるため、モデルの最終的な精度に影響を与えることなくトレーニング中に無視できる可能性があります。
これらの制限に対応して、データセット上の情報を抽出して (合成) サンプルの凝縮セット、つまり抽出データセットにするという概念が登場しました。
重要な側面の 1 つは、元のデータセットと合成データセットをリンクするために選択されたアーキテクチャ (通常は ConvNet) です。
ただし、使用されたモデル アーキテクチャが蒸留中に使用されたモデルと異なる場合、最終的な精度は低くなります。
もう 1 つの課題は、128×128 以上の高解像度画像の生成です。
この論文では、潜在空間での拡散とデータセット蒸留を組み合わせて両方の課題に取り組む、拡散モデルによる潜在データセット蒸留 (LD3M) を提案します。
LD3M には、データセット蒸留に合わせた新しい拡散プロセスが組み込まれており、合成画像を学習するための勾配基準が向上します。
LD3M は、拡散ステップの数を調整することにより、速度と精度の間のトレードオフを制御する簡単な方法も提供します。
いくつかの ImageNet サブセットおよび高解像度画像 (128×128 および 256×256) でアプローチを評価します。
その結果、LD3M は常に最先端の蒸留技術を最大 4.8 pp. 上回る性能を発揮します。
と4.2ページ
それぞれ、クラスあたり 1 枚の画像と 10 枚の画像の場合。

要約(オリジナル)

The efficacy of machine learning has traditionally relied on the availability of increasingly larger datasets. However, large datasets pose storage challenges and contain non-influential samples, which could be ignored during training without impacting the final accuracy of the model. In response to these limitations, the concept of distilling the information on a dataset into a condensed set of (synthetic) samples, namely a distilled dataset, emerged. One crucial aspect is the selected architecture (usually ConvNet) for linking the original and synthetic datasets. However, the final accuracy is lower if the employed model architecture differs from the model used during distillation. Another challenge is the generation of high-resolution images, e.g., 128×128 and higher. In this paper, we propose Latent Dataset Distillation with Diffusion Models (LD3M) that combine diffusion in latent space with dataset distillation to tackle both challenges. LD3M incorporates a novel diffusion process tailored for dataset distillation, which improves the gradient norms for learning synthetic images. By adjusting the number of diffusion steps, LD3M also offers a straightforward way of controlling the trade-off between speed and accuracy. We evaluate our approach in several ImageNet subsets and for high-resolution images (128×128 and 256×256). As a result, LD3M consistently outperforms state-of-the-art distillation techniques by up to 4.8 p.p. and 4.2 p.p. for 1 and 10 images per class, respectively.

arxiv情報

著者 Brian B. Moser,Federico Raue,Sebastian Palacio,Stanislav Frolov,Andreas Dengel
発行日 2024-03-06 17:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク