Prioritize Alignment in Dataset Distillation

要約

データセット蒸留は、トレーニングされたモデルのパフォーマンスを損なうことなく、大規模なデータセットを大幅にコンパクトな合成データセットに圧縮することを目的としています。
これを実現するために、既存の方法ではエージェント モデルを使用してターゲット データセットから情報を抽出し、それを抽出されたデータセットに埋め込みます。
したがって、抽出および埋め込まれた情報の品質によって、抽出されたデータセットの品質が決まります。
この研究では、既存の方法では情報抽出段階と埋め込み段階の両方で不整合な情報が導入されていることを発見しました。
これを軽減するために、次の 2 つの観点から情報を整列させる、Prioritize Alignment in Dataset Distillation (PAD) を提案します。
1) 圧縮率に従ってターゲット データセットをプルーニングし、エージェント モデルによって抽出できる情報をフィルタリングします。
2) 低レベルの情報が過度に導入されることを避けるために、エージェント モデルの深い層のみを使用して蒸留を実行します。
このシンプルな戦略は、不整合な情報を効果的に除外し、主流のマッチングベースの蒸留アルゴリズムに重要な改善をもたらします。
さらに、軌道マッチングに基づいて構築された \textbf{PAD} は、さまざまなベンチマークで大幅な改善を達成し、最先端のパフォーマンスを実現します。

要約(オリジナル)

Dataset Distillation aims to compress a large dataset into a significantly more compact, synthetic one without compromising the performance of the trained models. To achieve this, existing methods use the agent model to extract information from the target dataset and embed it into the distilled dataset. Consequently, the quality of extracted and embedded information determines the quality of the distilled dataset. In this work, we find that existing methods introduce misaligned information in both information extraction and embedding stages. To alleviate this, we propose Prioritize Alignment in Dataset Distillation (PAD), which aligns information from the following two perspectives. 1) We prune the target dataset according to the compressing ratio to filter the information that can be extracted by the agent model. 2) We use only deep layers of the agent model to perform the distillation to avoid excessively introducing low-level information. This simple strategy effectively filters out misaligned information and brings non-trivial improvement for mainstream matching-based distillation algorithms. Furthermore, built on trajectory matching, \textbf{PAD} achieves remarkable improvements on various benchmarks, achieving state-of-the-art performance.

arxiv情報

著者 Zekai Li,Ziyao Guo,Wangbo Zhao,Tianle Zhang,Zhi-Qi Cheng,Samir Khaki,Kaipeng Zhang,Ahmad Sajedi,Konstantinos N Plataniotis,Kai Wang,Yang You
発行日 2024-08-13 14:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク