Improve Cross-Architecture Generalization on Dataset Distillation

要約

データセットの蒸留は、機械学習における実用的なアプローチであり、より大きな既存のデータセットからより小さな合成データセットを作成することを目的としています。
ただし、既存の蒸留手法は主にモデルベースのパラダイムを採用しており、合成データセットはモデル固有のバイアスを継承し、代替モデルへの一般化可能性が制限されています。
この制約に応えて、我々は「モデルプール」と呼ばれる新しい方法論を提案します。
このアプローチには、データ蒸留プロセス中に特定の確率分布に基づいて多様なモデル プールからモデルを選択することが含まれます。
さらに、モデル プールを確立された知識蒸留アプローチと統合し、蒸留されたデータセットのテスト プロセスに知識蒸留を適用します。
私たちの実験結果は、テスト中にさまざまな既存モデルにわたってモデル プール アプローチの有効性を検証し、既存の方法論と比較して優れたパフォーマンスを実証しました。

要約(オリジナル)

Dataset distillation, a pragmatic approach in machine learning, aims to create a smaller synthetic dataset from a larger existing dataset. However, existing distillation methods primarily adopt a model-based paradigm, where the synthetic dataset inherits model-specific biases, limiting its generalizability to alternative models. In response to this constraint, we propose a novel methodology termed ‘model pool’. This approach involves selecting models from a diverse model pool based on a specific probability distribution during the data distillation process. Additionally, we integrate our model pool with the established knowledge distillation approach and apply knowledge distillation to the test process of the distilled dataset. Our experimental results validate the effectiveness of the model pool approach across a range of existing models while testing, demonstrating superior performance compared to existing methodologies.

arxiv情報

著者 Binglin Zhou,Linhao Zhong,Wentao Chen
発行日 2024-02-20 13:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク