Efficient Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories

要約

大規模で最先端の機械学習モデルをトレーニングするには、通常、大規模なデータセットを使用する必要があり、その結果、トレーニングとパラメーター調整のプロセスに費用と時間がかかります。
研究者の中には、優れたパフォーマンスのモデルをトレーニングする能力を維持しながら、実世界のデータセットから情報を抽出して小さくコンパクトな合成データセットを作成することを選択し、データセット蒸留 (DD) として知られるデータ効率の高い方法を提案する人もいます。
この分野における最近の進歩にもかかわらず、既存の手法は依然としてパフォーマンスが低く、大規模なデータセットを効果的に置き換えることはできません。
この論文では、スチューデント蒸留の有効性の向上のみに焦点を当てたこれまでの方法とは異なり、専門家とスチューデントの間の重要な相互作用を初めて認識しました。
私たちは、その後のデータセットの蒸留でより強力なエキスパート軌道を使用する場合のエキスパートの滑らかさが大きな影響を与えると主張します。
これに基づいて、クリッピング損失と勾配ペナルティの統合を導入して、エキスパート軌道のパラメータ変更率を調整します。
さらに、蒸留中にランダムに初期化された変数に対して示される感度に応じて、合成データセットとバランスのとれた内部ループ損失の代表的な初期化を提案します。
最後に、累積誤差の潜在的な発生を軽減するための 2 つの強化戦略、つまり中間マッチング損失と重み摂動を紹介します。
私たちは、さまざまなスケール、サイズ、解像度のデータセットに対して広範な実験を実施します。
結果は、提案された方法が従来の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Training a large and state-of-the-art machine learning model typically necessitates the use of large-scale datasets, which, in turn, makes the training and parameter-tuning process expensive and time-consuming. Some researchers opt to distil information from real-world datasets into tiny and compact synthetic datasets while maintaining their ability to train a well-performing model, hence proposing a data-efficient method known as Dataset Distillation (DD). Despite recent progress in this field, existing methods still underperform and cannot effectively replace large datasets. In this paper, unlike previous methods that focus solely on improving the efficacy of student distillation, we are the first to recognize the important interplay between expert and student. We argue the significant impact of expert smoothness when employing more potent expert trajectories in subsequent dataset distillation. Based on this, we introduce the integration of clipping loss and gradient penalty to regulate the rate of parameter changes in expert trajectories. Furthermore, in response to the sensitivity exhibited towards randomly initialized variables during distillation, we propose representative initialization for synthetic dataset and balanced inner-loop loss. Finally, we present two enhancement strategies, namely intermediate matching loss and weight perturbation, to mitigate the potential occurrence of cumulative errors. We conduct extensive experiments on datasets of different scales, sizes, and resolutions. The results demonstrate that the proposed method significantly outperforms prior methods.

arxiv情報

著者 Jiyuan Shen,Wenzhuo Yang,Kwok-Yan Lam
発行日 2023-10-16 16:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク