要約
データセットの蒸留は、大規模な自然データセットから有益な特徴をコンパクトな合成形式に凝縮することを目的とした手法として登場しました。
最近の進歩によりこの技術は洗練されましたが、そのパフォーマンスは、一般的なクラス固有の合成パラダイムによってボトルネックになっています。
このパラダイムの下では、合成データは事前に割り当てられたワンホット ラベル専用に最適化され、機能の凝縮において暗黙のクラス障壁が作成されます。
これは、蒸留予算の非効率的な利用とクラス間の特徴分布の監視につながり、分析で実証されたように、最終的に有効性と効率を制限します。
これらの制約を克服するために、この論文では、現在のデータセット抽出方法で広く利用されているクラス固有のデータラベル フレームワークを超越する革新的な抽出アプローチであるクラス間特徴補償器 (INFER) を紹介します。
具体的には、INFER は Universal Feature Compensator (UFC) を活用してクラス間の機能統合を強化し、単一の UFC 入力から複数の追加合成インスタンスを生成できるようにします。
これにより、蒸留予算の効率が大幅に向上します。
さらに、INFER は、蒸留中のクラス間の相互作用を強化し、それによって蒸留されたデータの有効性と一般化可能性を高めます。
元のデータセット内のラベルと同様のラベルの線形補間を可能にすることで、INFER は合成データを細心の注意を払って最適化し、合成データセット内のソフト ラベルのサイズをほぼゼロまで大幅に削減し、データセットの蒸留における効率と有効性の新しいベンチマークを確立します。
要約(オリジナル)
Dataset distillation has emerged as a technique aiming to condense informative features from large, natural datasets into a compact and synthetic form. While recent advancements have refined this technique, its performance is bottlenecked by the prevailing class-specific synthesis paradigm. Under this paradigm, synthetic data is optimized exclusively for a pre-assigned one-hot label, creating an implicit class barrier in feature condensation. This leads to inefficient utilization of the distillation budget and oversight of inter-class feature distributions, which ultimately limits the effectiveness and efficiency, as demonstrated in our analysis. To overcome these constraints, this paper presents the Inter-class Feature Compensator (INFER), an innovative distillation approach that transcends the class-specific data-label framework widely utilized in current dataset distillation methods. Specifically, INFER leverages a Universal Feature Compensator (UFC) to enhance feature integration across classes, enabling the generation of multiple additional synthetic instances from a single UFC input. This significantly improves the efficiency of the distillation budget. Moreover, INFER enriches inter-class interactions during the distillation, thereby enhancing the effectiveness and generalizability of the distilled data. By allowing for the linear interpolation of labels similar to those in the original dataset, INFER meticulously optimizes the synthetic data and dramatically reduces the size of soft labels in the synthetic dataset to almost zero, establishing a new benchmark for efficiency and effectiveness in dataset distillation.
arxiv情報
著者 | Xin Zhang,Jiawei Du,Ping Liu,Joey Tianyi Zhou |
発行日 | 2024-08-13 14:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google