要約
Vision Transformer (ViT) は、長距離の依存関係をモデル化する強力な機能により、さまざまな視覚タスクで大きな可能性を示しています。
ただし、このような成功は、大規模なサンプルでのトレーニングによって大きく促進されます。
実際のアプリケーションでは、大規模なデータセットが常に利用できるとは限らず、小規模なデータセット (極小データセットと呼ばれる) でのみトレーニングされた場合、ViT のパフォーマンスは畳み込みニューラル ネットワーク (CNN) よりも悪くなります。
その表現力。
この論文では、各層で異なる注意スケールをモデル化するために、マルチスケールの自己注意メカニズムと畳み込みブロックを備えた小型 ViT アーキテクチャ (MSCViT と呼ばれる) を紹介します。
まず、ウェーブレット畳み込みを導入しました。これは、周波数分割によって得られた高周波成分を畳み込みチャネルと選択的に組み合わせて、局所的な特徴を抽出します。
次に、トークンの数と計算コストを削減するために、軽量のマルチヘッド アテンション モジュールが開発されます。
最後に、バックボーンの位置エンコーディング (PE) がローカル特徴抽出モジュールに置き換えられます。
オリジナルの ViT と比較すると、パラメーター効率が高く、特に小さなデータセットに適しています。
小規模なデータセットに対して広範な実験が行われ、大規模なデータセットで事前トレーニングを行わなくても、モデルは 1,400 万のパラメーターと 2.5 GFLOP を備えた CIFAR-100 で 84.68% の精度を達成しました。
要約(オリジナル)
Vision Transformer (ViT) has demonstrated significant potential in various vision tasks due to its strong ability in modelling long-range dependencies. However, such success is largely fueled by training on massive samples. In real applications, the large-scale datasets are not always available, and ViT performs worse than Convolutional Neural Networks (CNNs) if it is only trained on small scale dataset (called tiny dataset), since it requires large amount of training data to ensure its representational capacity. In this paper, a small-size ViT architecture with multi-scale self-attention mechanism and convolution blocks is presented (dubbed MSCViT) to model different scales of attention at each layer. Firstly, we introduced wavelet convolution, which selectively combines the high-frequency components obtained by frequency division with our convolution channel to extract local features. Then, a lightweight multi-head attention module is developed to reduce the number of tokens and computational costs. Finally, the positional encoding (PE) in the backbone is replaced by a local feature extraction module. Compared with the original ViT, it is parameter-efficient and is particularly suitable for tiny datasets. Extensive experiments have been conducted on tiny datasets, in which our model achieves an accuracy of 84.68% on CIFAR-100 with 14.0M parameters and 2.5 GFLOPs, without pre-training on large datasets.
arxiv情報
| 著者 | Bowei Zhang,Yi Zhang | 
| 発行日 | 2025-01-14 14:33:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
