要約
我々は、大規模なデータセットの重要な情報をコンパクトなアドレス可能なメモリに圧縮するアルゴリズムを提案する。これらのメモリは、ニューラルネットワークを迅速に再トレーニングし、パフォーマンスを回復するために呼び出すことができます(元のデータセットを完全に保存して再トレーニングする代わりに)。 データセット蒸留のフレームワークを基に、我々は、共有された共通表現がより効率的かつ効果的な蒸留を可能にするという重要な見解を示す。具体的には、クラス間で共有されるベース(別名「メモリ」)のセットを学習し、学習された柔軟なアドレス関数を通して結合し、多様な学習例セットを生成する。これはいくつかの利点につながる。1) 圧縮されたデータのサイズは必ずしもクラス数に比例して大きくならない、2) より効果的な蒸留により全体的に高い圧縮率が得られる、3) 元のクラスを思い出すだけでなく、より一般的な問合せが可能になる、などの利点がある。 我々は5つのベンチマークにおいて、CIFAR10とCIFAR100をそれぞれ蒸留した際に、最大16.5%と9.7%の精度向上を含む、最先端の結果を示している。次に、我々のフレームワークを活用して継続的な学習を行い、4つのベンチマークで最先端の結果を達成し、MANYでは23.2%の精度向上を実現した。
要約(オリジナル)
We propose an algorithm that compresses the critical information of a large dataset into compact addressable memories. These memories can then be recalled to quickly re-train a neural network and recover the performance (instead of storing and re-training on the full original dataset). Building upon the dataset distillation framework, we make a key observation that a shared common representation allows for more efficient and effective distillation. Concretely, we learn a set of bases (aka ‘memories’) which are shared between classes and combined through learned flexible addressing functions to generate a diverse set of training examples. This leads to several benefits: 1) the size of compressed data does not necessarily grow linearly with the number of classes; 2) an overall higher compression rate with more effective distillation is achieved; and 3) more generalized queries are allowed beyond recalling the original classes. We demonstrate state-of-the-art results on the dataset distillation task across five benchmarks, including up to 16.5% and 9.7% in retained accuracy improvement when distilling CIFAR10 and CIFAR100 respectively. We then leverage our framework to perform continual learning, achieving state-of-the-art results on four benchmarks, with 23.2% accuracy improvement on MANY.
arxiv情報
著者 | Zhiwei Deng,Olga Russakovsky |
発行日 | 2022-06-06 21:32:26+00:00 |
arxivサイト | arxiv_id(pdf) |