Trust-Aware Diversion for Data-Effective Distillation

要約

データセット蒸留は、大きなデータセットを圧縮して、重要な情報を保持する小さな合成サブセットに圧縮します。
既存の方法では、すべてのサンプルが完全にラベル付けされていると仮定し、誤ったラベルが遍在する現実世界のアプリケーションを制限します。
これらの誤解されたサンプルは、データセットに信頼できない情報を導入し、データセットの蒸留におけるモデルの最適化を誤解させます。
この問題に取り組むために、私たちは信頼を認識している転用(TAD)データセット蒸留方法を提案します。
提案されたTADは、データ効果の高い蒸留のための反復的なデュアルループ最適化フレームワークを導入します。
具体的には、外側のループはデータを信頼できる信頼できない空間に分割し、蒸留プロセスへの信頼を保証するために、信頼できるサンプルへの蒸留をリダイレクトします。
このステップにより、データセットの蒸留に対する誤ったラベルサンプルの影響が最小限に抑えられます。
内側のループは、信頼されていないサンプルを再調整することにより、蒸留目標を最大化し、蒸留のためにそれらを貴重なサンプルに変換します。
このデュアルループは、互いを繰り返し洗練し、補償し、信頼できるスペースを徐々に拡大し、信頼されていないスペースを縮小します。
実験は、3つの広く使用されているベンチマーク(CIFAR10、CIFAR100、および小さなイメージネット)の既存のデータセット蒸留方法のパフォーマンスを3つの挑戦的な誤ったライベル設定(対称、非対称、および実世界)で既存のデータセット蒸留方法のパフォーマンスを大幅に改善できることを示しています。

要約(オリジナル)

Dataset distillation compresses a large dataset into a small synthetic subset that retains essential information. Existing methods assume that all samples are perfectly labeled, limiting their real-world applications where incorrect labels are ubiquitous. These mislabeled samples introduce untrustworthy information into the dataset, which misleads model optimization in dataset distillation. To tackle this issue, we propose a Trust-Aware Diversion (TAD) dataset distillation method. Our proposed TAD introduces an iterative dual-loop optimization framework for data-effective distillation. Specifically, the outer loop divides data into trusted and untrusted spaces, redirecting distillation toward trusted samples to guarantee trust in the distillation process. This step minimizes the impact of mislabeled samples on dataset distillation. The inner loop maximizes the distillation objective by recalibrating untrusted samples, thus transforming them into valuable ones for distillation. This dual-loop iteratively refines and compensates for each other, gradually expanding the trusted space and shrinking the untrusted space. Experiments demonstrate that our method can significantly improve the performance of existing dataset distillation methods on three widely used benchmarks (CIFAR10, CIFAR100, and Tiny ImageNet) in three challenging mislabeled settings (symmetric, asymmetric, and real-world).

arxiv情報

著者 Zhuojie Wu,Yanbin Liu,Xin Shen,Xiaofeng Cao,Xin Yu
発行日 2025-02-07 15:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク