Dataset Distillation via Committee Voting

要約

データセットの蒸留は、元のデータの重要な特性を保持する、より小さく代表的なデータセットを合成することを目的としており、少ない計算リソースで効率的なモデル トレーニングを可能にします。
これまでの研究は主に、元のデータと合成データの間の位置合わせまたはマッチング プロセスの改善、または大規模なデータセットの抽出効率の向上に焦点を当ててきました。
この研究では、斬新で直交的なアプローチである ${\bf C}$ommittee ${\bf V}$oting for ${\bf D}$ataset ${\bf D}$istillation (CV-DD) を導入します。
複数のモデルや専門家の集合的な知恵を活用して、高品質に抽出されたデータセットを作成します。
まず、モデル設計と最適化プロセスにおける最近の進歩と思慮深い調整を活用することで、すでに最先端の精度を達成している強力なベースラインを確立する方法を示します。
高品質のソフトラベルを生成しながらモデル委員会からの分布と予測を統合することにより、私たちの方法はより広範囲のデータ特徴を捕捉し、モデル固有のバイアスと分布シフトの悪影響を軽減し、一般化の大幅な改善につながります。
この投票ベースの戦略は、抽出されたデータセット内の多様性と堅牢性を促進するだけでなく、過剰適合を大幅に削減し、評価後のタスクのパフォーマンスを向上させます。
さまざまなデータセットと IPC (クラスごとの画像) にわたる広範な実験により、委員会投票が単一/複数モデルの蒸留方法と比較して、より信頼性が高く適応性のある蒸留データが得られることが実証され、効率的かつ正確なデータセットの蒸留の可能性が実証されています。
コードは https://github.com/Jiacheng8/CV-DD で入手できます。

要約(オリジナル)

Dataset distillation aims to synthesize a smaller, representative dataset that preserves the essential properties of the original data, enabling efficient model training with reduced computational resources. Prior work has primarily focused on improving the alignment or matching process between original and synthetic data, or on enhancing the efficiency of distilling large datasets. In this work, we introduce ${\bf C}$ommittee ${\bf V}$oting for ${\bf D}$ataset ${\bf D}$istillation (CV-DD), a novel and orthogonal approach that leverages the collective wisdom of multiple models or experts to create high-quality distilled datasets. We start by showing how to establish a strong baseline that already achieves state-of-the-art accuracy through leveraging recent advancements and thoughtful adjustments in model design and optimization processes. By integrating distributions and predictions from a committee of models while generating high-quality soft labels, our method captures a wider spectrum of data features, reduces model-specific biases and the adverse effects of distribution shifts, leading to significant improvements in generalization. This voting-based strategy not only promotes diversity and robustness within the distilled dataset but also significantly reduces overfitting, resulting in improved performance on post-eval tasks. Extensive experiments across various datasets and IPCs (images per class) demonstrate that Committee Voting leads to more reliable and adaptable distilled data compared to single/multi-model distillation methods, demonstrating its potential for efficient and accurate dataset distillation. Code is available at: https://github.com/Jiacheng8/CV-DD.

arxiv情報

著者 Jiacheng Cui,Zhaoyi Li,Xiaochen Ma,Xinyue Bi,Yaxin Luo,Zhiqiang Shen
発行日 2025-01-13 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク