要約
データ効率的な学習は、特に大規模なマルチモーダルモデルの現在の傾向を考えると、大きな注目を集めており、データセットの蒸留は効果的な解決策となり得る。しかし、データセット蒸留のプロセス自体はまだ非常に非効率的である。本研究では、情報輸送を参照しながら蒸留問題をモデル化する。データセット蒸留には深刻なデータの冗長性が存在することに着目し、学習サンプルの有用性をより重視することを主張する。我々は、最適なデータ選択に関する包括的な分析によって検証された、最も価値のあるサンプルを利用するための手法ファミリーを提案する。例えば、0.04%の訓練データで同等の蒸留性能が得られる場合もある。さらに、我々の手法は一貫して性能を向上させており、蒸留とネットワークのダイナミクスに関する新たな分析を切り開く可能性がある。我々の手法は、蒸留アルゴリズムをより大規模なデータセットや、より異種なデータセット、例えばImageNet-1KやKinetics-400に拡張することができる。我々のコードはhttps://github.com/silicx/GoldFromOres。
要約(オリジナル)
Data-efficient learning has drawn significant attention, especially given the current trend of large multi-modal models, where dataset distillation can be an effective solution. However, the dataset distillation process itself is still very inefficient. In this work, we model the distillation problem with reference to information transport. Observing that severe data redundancy exists in dataset distillation, we argue to put more emphasis on the utility of the training samples. We propose a family of methods to exploit the most valuable samples, which is validated by our comprehensive analysis of the optimal data selection. The new strategy significantly reduces the training cost and extends a variety of existing distillation algorithms to larger and more diversified datasets, e.g., in some cases only 0.04% training data is sufficient for comparable distillation performance. Moreover, our strategy consistently enhances the performance, which may open up new analyses on the dynamics of distillation and networks. Our method is able to extend the distillation algorithms to much larger-scale datasets and more heterogeneous datasets, e.g., ImageNet-1K and Kinetics-400. Our code is available on https://github.com/silicx/GoldFromOres.
arxiv情報
著者 | Yue Xu,Yong-Lu Li,Kaitong Cui,Ziyu Wang,Cewu Lu,Yu-Wing Tai,Chi-Keung Tang |
発行日 | 2023-11-03 14:24:45+00:00 |
arxivサイト | arxiv_id(pdf) |