要約
データセット削減 (DR) は、ターゲット タスクのパフォーマンスを維持しながら、大規模なデータセットからサンプルを選択または抽出して小さなサブセットに分割しようとします。
既存の方法は主に、元のデータセット (通常は入力データと対応するラベル) と同じ形式でデータをプルーニングまたは合成することに重点を置いています。
ただし、DR 設定では、モデルのトレーニングを促進するための追加の学習ターゲットとして、データとラベルのペアを超えてより多くの情報を合成できることがわかりました。
このペーパーでは、特権情報を使用したデータセット削減 (DRUPI) を紹介します。これは、削減されたデータセットとともに特権情報を合成することで DR を強化します。
この特権情報は、特徴ラベルまたはアテンション ラベルの形式をとることができ、モデル学習を改善するための補助的な監視を提供します。
私たちの調査結果では、効果的な特徴ラベルは、過度に差別的であることと過度に多様であることの間のバランスをとる必要があり、削減されたデータセットの有効性を向上させるには中程度のレベルが最適であることが判明しています。
ImageNet、CIFAR-10/100、Tiny ImageNet に関する広範な実験により、DRUPI が既存のデータセット削減手法とシームレスに統合され、大幅なパフォーマンス向上が実現されることが実証されました。
要約(オリジナル)
Dataset reduction (DR) seeks to select or distill samples from large datasets into smaller subsets while preserving performance on target tasks. Existing methods primarily focus on pruning or synthesizing data in the same format as the original dataset, typically the input data and corresponding labels. However, in DR settings, we find it is possible to synthesize more information beyond the data-label pair as an additional learning target to facilitate model training. In this paper, we introduce Dataset Reduction Using Privileged Information (DRUPI), which enriches DR by synthesizing privileged information alongside the reduced dataset. This privileged information can take the form of feature labels or attention labels, providing auxiliary supervision to improve model learning. Our findings reveal that effective feature labels must balance between being overly discriminative and excessively diverse, with a moderate level proving optimal for improving the reduced dataset’s efficacy. Extensive experiments on ImageNet, CIFAR-10/100, and Tiny ImageNet demonstrate that DRUPI integrates seamlessly with existing dataset reduction methods, offering significant performance gains.
arxiv情報
著者 | Shaobo Wang,Yantai Yang,Shuaiyu Zhang,Chenghao Sun,Weiya Li,Xuming Hu,Linfeng Zhang |
発行日 | 2024-10-02 14:49:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google