要約
データセット蒸留は、フルスケールのオリジナルに匹敵するパフォーマンスを備えた小さなデータセットを最適化することにより、メモリと計算コストを削減するための効率的な方法を提供します。
ただし、大規模なデータセットと複雑なディープネットワーク(例:ResNet-101を使用したImagenet-1K)の場合、広範な最適化スペースはパフォーマンスを制限し、その実用性を低下させます。
最近のアプローチでは、事前に訓練された拡散モデルを採用して、有益な画像を直接生成し、ピクセルレベルの最適化を回避し、顕著な結果を達成しています。
ただし、これらの方法は、多くの場合、事前に訓練されたモデルとターゲットデータセット間の分布シフトにより、さまざまな設定全体で複数の蒸留ステップが必要であるため、課題に直面しています。
これらの問題に対処するために、既存の拡散ベースの蒸留方法に直交する新しいフレームワークを提案し、生成ではなく選択のために拡散モデルを活用します。
私たちの方法は、入力画像とテキストプロンプトに基づいて拡散モデルによって生成されるノイズを予測することから始まります(ラベルテキストの有無にかかわらず)、各ペアの対応する損失を計算します。
損失の違いにより、元の画像の特徴的な領域を識別します。
さらに、多様性の制約を維持するために、選択したパッチでクラス内クラスタリングとランキングを実行します。
この合理化されたフレームワークは、単一ステップの蒸留プロセスを可能にし、広範な実験により、私たちのアプローチがさまざまなメトリックにわたって最新の方法を上回ることが示されています。
要約(オリジナル)
Dataset distillation offers an efficient way to reduce memory and computational costs by optimizing a smaller dataset with performance comparable to the full-scale original. However, for large datasets and complex deep networks (e.g., ImageNet-1K with ResNet-101), the extensive optimization space limits performance, reducing its practicality. Recent approaches employ pre-trained diffusion models to generate informative images directly, avoiding pixel-level optimization and achieving notable results. However, these methods often face challenges due to distribution shifts between pre-trained models and target datasets, along with the need for multiple distillation steps across varying settings. To address these issues, we propose a novel framework orthogonal to existing diffusion-based distillation methods, leveraging diffusion models for selection rather than generation. Our method starts by predicting noise generated by the diffusion model based on input images and text prompts (with or without label text), then calculates the corresponding loss for each pair. With the loss differences, we identify distinctive regions of the original images. Additionally, we perform intra-class clustering and ranking on selected patches to maintain diversity constraints. This streamlined framework enables a single-step distillation process, and extensive experiments demonstrate that our approach outperforms state-of-the-art methods across various metrics.
arxiv情報
著者 | Xinhao Zhong,Shuoyang Sun,Xulin Gu,Zhaoyang Xu,Yaowei Wang,Jianlong Wu,Bin Chen |
発行日 | 2025-02-19 16:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google