AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories

要約

大規模な AI モデルをトレーニングするには、通常、機械学習プロセスで大規模なデータセットが必要となり、トレーニングとパラメーター調整プロセスに時間とコストの両方がかかります。
研究者の中には、現実世界のデータセットから非常に代表的で有益な少数のサンプルを慎重に合成することで、この問題に対処している人もいます。
データセット蒸留 (DD) として知られるこのアプローチは、データ効率の高い学習の観点を提案します。
この分野における最近の進歩にもかかわらず、既存の手法のパフォーマンスは依然として期待に応えられず、抽出されたデータセットは元のデータセットを効果的に置き換えることはできません。
このペーパーでは、スチューデント蒸留の有効性の向上のみに焦点を当てたこれまでの方法とは異なり、エキスパート モデルとスチューデント モデルの間の重要な相互影響を認識し、活用します。
私たちは、専門家の軌跡の滑らかさが、その後の生徒のパラメータ調整に大きな影響を与えることを観察しました。
これに基づいて、私たちは AST という名前の効果的な DD フレームワークを提案します。AST (Alignment with Smooth and high-quality Expert Trajectories) の略です。
クリッピングロスと勾配ペナルティの統合を考案して、エキスパート軌道生成におけるパラメータの変更率を調整します。
スチューデントパラメータとエキスパートの軌道との調整をさらに洗練するために、合成データセットの代表的な初期化を提案し、蒸留中にランダムに初期化された変数に対して示される感度に応じて内部ループ損失のバランスをとりました。
また、累積誤差の潜在的な発生を軽減するために、中間マッチング損失と重み摂動という 2 つの強化戦略も提案します。
私たちは、さまざまなスケール、サイズ、解像度のデータセットに対して広範な実験を実施します。
結果は、提案された方法が従来の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Training large AI models typically requires large-scale datasets in the machine learning process, making training and parameter-tuning process both time-consuming and costly. Some researchers address this problem by carefully synthesizing a very small number of highly representative and informative samples from real-world datasets. This approach, known as Dataset Distillation (DD), proposes a perspective for data-efficient learning. Despite recent progress in this field, the performance of existing methods still cannot meet expectations, and distilled datasets cannot effectively replace original datasets. In this paper, unlike previous methods that focus solely on improving the effectiveness of student distillation, we recognize and leverage the important mutual influence between expert and student models. We observed that the smoothness of expert trajectories has a significant impact on subsequent student parameter alignment. Based on this, we propose an effective DD framework named AST, standing for Alignment with Smooth and high-quality expert Trajectories. We devise the integration of clipping loss and gradient penalty to regulate the rate of parameter changes in expert trajectory generation. To further refine the student parameter alignment with expert trajectory, we put forward representative initialization for the synthetic dataset and balanced inner-loop loss in response to the sensitivity exhibited towards randomly initialized variables during distillation. We also propose two enhancement strategies, namely intermediate matching loss and weight perturbation, to mitigate the potential occurrence of cumulative errors. We conduct extensive experiments on datasets of different scales, sizes, and resolutions. The results demonstrate that the proposed method significantly outperforms prior methods.

arxiv情報

著者 Jiyuan Shen,Wenzhuo Yang,Kwok-Yan Lam
発行日 2023-11-27 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク