要約
ビジョン トランスフォーマーは大きな注目を集めており、画像分類、インスタンスのセグメンテーション、オブジェクト検出などのさまざまなコンピューター ビジョン タスクにおいて最先端のパフォーマンスを達成しています。
しかし、注意の複雑さに対処し、画像内のきめの細かい情報を効果的にキャプチャすることには課題が残っています。
既存のソリューションは、計算コストを削減するために、プーリングなどのダウンサンプリング操作に頼ることがよくあります。
残念ながら、このような操作は元に戻せないため、情報が失われる可能性があります。
この論文では、これらの課題に取り組むための Scattering Vision Transformer (SVT) と呼ばれる新しいアプローチを紹介します。
SVT には、複雑な画像の詳細をキャプチャできるスペクトル散乱ネットワークが組み込まれています。
SVT は、低周波数成分と高周波数成分を分離することで、ダウンサンプリング操作に関連する可逆性の問題を解決します。
さらに、SVT は、トークンとチャネルのミキシングにアインシュタイン乗算を利用した独自のスペクトル ゲーティング ネットワークを導入し、複雑さを効果的に軽減します。
SVT が、パラメーター数と FLOPS を大幅に削減しながら、ImageNet データセット上で最先端のパフォーマンスを達成することを示します。
SVT は、LiTv2 および iFormer と比較して 2\% の改善を示しています。
SVT-H-S は 84.2\% のトップ 1 精度に達し、SVT-H-B は 85.2\% (基本バージョンでは最先端)、SVT-H-L は 85.7\% (これも大規模バージョンでは最先端) に達します。
SVT は、インスタンス セグメンテーションなどの他のビジョン タスクでも同等の結果を示します。
また、SVT は、CIFAR10、CIFAR100、Oxford Flower、Stanford Car データセットなどの標準データセットでの転移学習において、他の変換器よりも優れたパフォーマンスを発揮します。
プロジェクト ページは、この Web ページ \url{https://badripatro.github.io/svt/} から入手できます。
要約(オリジナル)
Vision transformers have gained significant attention and achieved state-of-the-art performance in various computer vision tasks, including image classification, instance segmentation, and object detection. However, challenges remain in addressing attention complexity and effectively capturing fine-grained information within images. Existing solutions often resort to down-sampling operations, such as pooling, to reduce computational cost. Unfortunately, such operations are non-invertible and can result in information loss. In this paper, we present a novel approach called Scattering Vision Transformer (SVT) to tackle these challenges. SVT incorporates a spectrally scattering network that enables the capture of intricate image details. SVT overcomes the invertibility issue associated with down-sampling operations by separating low-frequency and high-frequency components. Furthermore, SVT introduces a unique spectral gating network utilizing Einstein multiplication for token and channel mixing, effectively reducing complexity. We show that SVT achieves state-of-the-art performance on the ImageNet dataset with a significant reduction in a number of parameters and FLOPS. SVT shows 2\% improvement over LiTv2 and iFormer. SVT-H-S reaches 84.2\% top-1 accuracy, while SVT-H-B reaches 85.2\% (state-of-art for base versions) and SVT-H-L reaches 85.7\% (again state-of-art for large versions). SVT also shows comparable results in other vision tasks such as instance segmentation. SVT also outperforms other transformers in transfer learning on standard datasets such as CIFAR10, CIFAR100, Oxford Flower, and Stanford Car datasets. The project page is available on this webpage.\url{https://badripatro.github.io/svt/}.
arxiv情報
著者 | Badri N. Patro,Vijay Srinivas Agneeswaran |
発行日 | 2023-11-02 15:24:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google