Escaping the Big Data Paradigm with Compact Transformers

要約

言語処理の標準としてトランスフォーマーが台頭し、コンピュータビジョンにおけるその進歩に伴い、パラメータのサイズや学習データの量も相応に大きくなってきました。このため、トランスフォーマーは少量のデータセットには適さないと考える人が多くなってきました。このような傾向は、特定の科学的領域におけるデータの利用可能性が制限され、リソースの限られた人々がこの分野の研究から排除されるといった懸念につながります。本論文では、コンパクトトランスフォーマーを導入することで、小規模な学習のためのアプローチを提示することを目的とする。我々は、適切なサイズの畳み込みトークン化により、トランスフォーマーがオーバーフィットを回避し、小規模データセットにおいて最先端のCNNを凌駕することを初めて示す。我々のモデルはモデルサイズに柔軟性があり、競争力のある結果を達成しながら、0.28Mという少ないパラメータを持つことができる。これは、従来のTransformerベースのモデルに比べ、10倍以上小さく、ResNet50と同等の性能を達成しながら15%のサイズであり、データ効率を大幅に改善することができます。また、CCTは多くの最新のCNNベースのアプローチや、いくつかの最新のNASベースのアプローチをも凌駕しています。さらに、Flowers-102では99.76%のトップ1精度で新しいSOTAを獲得し、ImageNet(ViTの29%のパラメータで82.71%の精度)およびNLPタスクで既存のベースラインを改善しました。また、データ効率の高い変換器に関する既存の研究成果を発展させるとともに、計算機資源が限られている人や小規模なデータセットを扱う人にとっても、変換器のシンプルでコンパクトな設計により、より現実的な研究成果を提供します。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Compact-Transformers で公開されています。

要約(オリジナル)

With the rise of Transformers as the standard for language processing, and their advancements in computer vision, there has been a corresponding growth in parameter size and amounts of training data. Many have come to believe that because of this, transformers are not suitable for small sets of data. This trend leads to concerns such as: limited availability of data in certain scientific domains and the exclusion of those with limited resource from research in the field. In this paper, we aim to present an approach for small-scale learning by introducing Compact Transformers. We show for the first time that with the right size, convolutional tokenization, transformers can avoid overfitting and outperform state-of-the-art CNNs on small datasets. Our models are flexible in terms of model size, and can have as little as 0.28M parameters while achieving competitive results. Our best model can reach 98% accuracy when training from scratch on CIFAR-10 with only 3.7M parameters, which is a significant improvement in data-efficiency over previous Transformer based models being over 10x smaller than other transformers and is 15% the size of ResNet50 while achieving similar performance. CCT also outperforms many modern CNN based approaches, and even some recent NAS-based approaches. Additionally, we obtain a new SOTA result on Flowers-102 with 99.76% top-1 accuracy, and improve upon the existing baseline on ImageNet (82.71% accuracy with 29% as many parameters as ViT), as well as NLP tasks. Our simple and compact design for transformers makes them more feasible to study for those with limited computing resources and/or dealing with small datasets, while extending existing research efforts in data efficient transformers. Our code and pre-trained models are publicly available at https://github.com/SHI-Labs/Compact-Transformers.

arxiv情報

著者 Ali Hassani,Steven Walton,Nikhil Shah,Abulikemu Abuduweili,Jiachen Li,Humphrey Shi
発行日 2022-06-07 19:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク