Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios

要約

データセットの蒸留は、CIFAR、MNIST、TinyImageNet などの単純なデータセットでは優れたパフォーマンスを示していますが、より複雑なシナリオでは同様の結果を達成するのに苦労しています。
本稿では、Grad-CAM活性化マップを用いて合成画像中の重要な識別領域を強調するデータセット抽出手法であるEDF(識別特徴の強調)を提案する。
私たちのアプローチは、重要な観察からインスピレーションを受けています。単純なデータセットでは、通常、高活性化領域が画像の大部分を占めるのに対し、複雑なシナリオでは、これらの領域のサイズははるかに小さくなります。
画像を合成するときにすべてのピクセルを均等に扱う以前の方法とは異なり、EDF は Grad-CAM 活性化マップを使用して高活性化領域を強化します。
監視の観点からは、一般的なパターンが含まれているため、損失が低い監視信号は軽視されます。
さらに、DD コミュニティが複雑なシナリオをより適切に探索できるようにするために、ImageNet-1K から 16 個のサブセット (イージー 8 個とハード 8 個) を慎重に選択して、Complex Dataset Distillation (Comp-DD) ベンチマークを構築しました。
特に、EDF は、ImageNet-1K サブセットなどの複雑なシナリオにおいて、一貫して SOTA の結果を上回ります。
願わくば、より多くの研究者が DD の実用性と有効性を向上させるよう刺激を受け、奨励されることを願っています。
私たちのコードとベンチマークは https://github.com/NUS-HPC-AI-Lab/EDF で公開されます。

要約(オリジナル)

Dataset distillation has demonstrated strong performance on simple datasets like CIFAR, MNIST, and TinyImageNet but struggles to achieve similar results in more complex scenarios. In this paper, we propose EDF (emphasizes the discriminative features), a dataset distillation method that enhances key discriminative regions in synthetic images using Grad-CAM activation maps. Our approach is inspired by a key observation: in simple datasets, high-activation areas typically occupy most of the image, whereas in complex scenarios, the size of these areas is much smaller. Unlike previous methods that treat all pixels equally when synthesizing images, EDF uses Grad-CAM activation maps to enhance high-activation areas. From a supervision perspective, we downplay supervision signals that have lower losses, as they contain common patterns. Additionally, to help the DD community better explore complex scenarios, we build the Complex Dataset Distillation (Comp-DD) benchmark by meticulously selecting sixteen subsets, eight easy and eight hard, from ImageNet-1K. In particular, EDF consistently outperforms SOTA results in complex scenarios, such as ImageNet-1K subsets. Hopefully, more researchers will be inspired and encouraged to improve the practicality and efficacy of DD. Our code and benchmark will be made public at https://github.com/NUS-HPC-AI-Lab/EDF.

arxiv情報

著者 Kai Wang,Zekai Li,Zhi-Qi Cheng,Samir Khaki,Ahmad Sajedi,Ramakrishna Vedantam,Konstantinos N Plataniotis,Alexander Hauptmann,Yang You
発行日 2024-10-22 17:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク