要約
データセット蒸留 (DD) では、効率的なトレーニングを促進するために、大規模なデータセットから洗練されたコンパクトな蒸留データセットを作成します。
DD における重要な課題は、抽出されたデータセットと使用されるニューラル ネットワーク (NN) アーキテクチャ間の依存関係です。
特定のアーキテクチャを使用して抽出されたデータセットを使用して別の NN アーキテクチャをトレーニングすると、多くの場合、他のアーキテクチャのトレーニング パフォーマンスが低下します。
このペーパーでは、さまざまな NN アーキテクチャにわたって DD の汎用性を高めるように設計された MetaDD について紹介します。
具体的には、MetaDD は、抽出されたデータをメタ特徴 (つまり、異なる NN アーキテクチャ間で一貫性を保つデータの共通の特徴) と異種の特徴 (つまり、各 NN アーキテクチャに固有のデータの特徴) に分割します。
次に、MetaDD は、マルチアーキテクチャ特徴の調整にアーキテクチャ不変損失関数を採用し、抽出されたデータ内のメタ特徴を増加させ、異種の特徴を削減します。
MetaDD は、低メモリ消費コンポーネントとして、あらゆる DD 手法にシームレスに統合できます。
実験結果は、MetaDD がさまざまな DD メソッドのパフォーマンスを大幅に向上させることを示しています。
Sre2L (50 IPC) を使用した Distilled Tiny-Imagenet では、MetaDD は最大 30.1\% のクロスアーキテクチャ NN 精度を達成し、2 番目に優れた方法 (GLaD) を 1.7\% 上回ります。
要約(オリジナル)
Dataset distillation (DD) entails creating a refined, compact distilled dataset from a large-scale dataset to facilitate efficient training. A significant challenge in DD is the dependency between the distilled dataset and the neural network (NN) architecture used. Training a different NN architecture with a distilled dataset distilled using a specific architecture often results in diminished trainning performance for other architectures. This paper introduces MetaDD, designed to enhance the generalizability of DD across various NN architectures. Specifically, MetaDD partitions distilled data into meta features (i.e., the data’s common characteristics that remain consistent across different NN architectures) and heterogeneous features (i.e., the data’s unique feature to each NN architecture). Then, MetaDD employs an architecture-invariant loss function for multi-architecture feature alignment, which increases meta features and reduces heterogeneous features in distilled data. As a low-memory consumption component, MetaDD can be seamlessly integrated into any DD methodology. Experimental results demonstrate that MetaDD significantly improves performance across various DD methods. On the Distilled Tiny-Imagenet with Sre2L (50 IPC), MetaDD achieves cross-architecture NN accuracy of up to 30.1\%, surpassing the second-best method (GLaD) by 1.7\%.
arxiv情報
著者 | Yunlong Zhao,Xiaoheng Deng,Xiu Su,Hongyan Xu,Xiuxing Li,Yijing Liu,Shan You |
発行日 | 2024-10-07 15:01:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google