ATOM: Attention Mixer for Efficient Dataset Distillation

要約

データセット蒸留における最近の研究では、より大きな実際のデータセットに存在する情報をカプセル化する圧縮された合成データセットを生成することで、トレーニング費用を最小限に抑えようとしています。
これらのアプローチは最終的に、元のデータセット全体でトレーニングされたモデルによって達成されるのと同様のテスト精度レベルを達成することを目的としています。
特徴と分布のマッチングに関するこれまでの研究では、蒸留プロセスでの 2 レベル最適化のコストを発生させることなく、重要な結果を達成しました。
これらの手法の多くは、説得力のある効率性にもかかわらず、ダウンストリームのパフォーマンス向上が限界的であり、コンテキスト情報の抽出が限られており、アーキテクチャ間の一般化が標準以下であるという問題を抱えています。
データセット抽出におけるこれらの課題に対処するために、特徴マッチング プロセスでチャネルと空間的な注意を組み合わせて使用​​して、大規模なデータセットを効率的に抽出する ATtentiOn Mixer (ATOM) モジュールを提案します。
空間的な注意は、それぞれの画像内のクラスの一貫した位置特定に基づいて学習プロセスをガイドするのに役立ち、より広い受容野からの蒸留を可能にします。
一方、チャネルごとの注意は、クラス自体に関連付けられたコンテキスト情報を取得するため、合成画像がトレーニングにとってより有益になります。
両方のタイプの注意を統合することにより、当社の ATOM モジュールは、CIFAR10/100 や TinyImagenet などのさまざまなコンピューター ビジョン データセットにわたって優れたパフォーマンスを実証します。
特に、私たちの方法は、クラスあたりの画像数が少ないシナリオでのパフォーマンスを大幅に向上させ、それによってその可能性を高めます。
さらに、クロスアーキテクチャやニューラル アーキテクチャ検索などのアプリケーションの改善も維持します。

要約(オリジナル)

Recent works in dataset distillation seek to minimize training expenses by generating a condensed synthetic dataset that encapsulates the information present in a larger real dataset. These approaches ultimately aim to attain test accuracy levels akin to those achieved by models trained on the entirety of the original dataset. Previous studies in feature and distribution matching have achieved significant results without incurring the costs of bi-level optimization in the distillation process. Despite their convincing efficiency, many of these methods suffer from marginal downstream performance improvements, limited distillation of contextual information, and subpar cross-architecture generalization. To address these challenges in dataset distillation, we propose the ATtentiOn Mixer (ATOM) module to efficiently distill large datasets using a mixture of channel and spatial-wise attention in the feature matching process. Spatial-wise attention helps guide the learning process based on consistent localization of classes in their respective images, allowing for distillation from a broader receptive field. Meanwhile, channel-wise attention captures the contextual information associated with the class itself, thus making the synthetic image more informative for training. By integrating both types of attention, our ATOM module demonstrates superior performance across various computer vision datasets, including CIFAR10/100 and TinyImagenet. Notably, our method significantly improves performance in scenarios with a low number of images per class, thereby enhancing its potential. Furthermore, we maintain the improvement in cross-architectures and applications such as neural architecture search.

arxiv情報

著者 Samir Khaki,Ahmad Sajedi,Kai Wang,Lucy Z. Liu,Yuri A. Lawryshyn,Konstantinos N. Plataniotis
発行日 2024-05-02 15:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク