要約
ビジョン トランスフォーマー (ViT) から派生したモデルは音素的に急増していますが、事前トレーニングされたモデルは、位置エンコーディングのサンプリングなど、アーキテクチャと構成を変更せずに任意の解像度の画像にシームレスに適応することができず、さまざまなビジョン タスクに対する柔軟性が制限されます。
たとえば、ViT-Huge に基づく Segment Anything Model (SAM) では、すべての入力画像を 1024$\times$1024 にサイズ変更する必要があります。
この制限を克服するために、標準畳み込み、拡張畳み込み、および深さ方向の畳み込みを含む一般化畳み込み内にセルフアテンションを組み込むマルチヘッド セルフアテンション畳み込み (MSA-Conv) を提案します。
MSA-Conv を使用すると、トランスフォーマーが再トレーニングや再スケーリングを行わずにさまざまなサイズの画像を処理できるようになり、画像サイズが大きくなるにつれてコストが増大する ViT への世界的な注目と比較して、計算コストがさらに削減されます。
その後、MSA-Conv による画像分類の概念実証として、たたみ込みビジョン トランスフォーマー (TiC) を紹介します。そこでは、多方向サイクリック シフト メカニズムとインタープーリング メカニズムという 2 つの容量強化戦略が提案されています。
トークン間の長距離接続と有効受容野の拡大。
TiC の全体的な有効性を検証するために、広範な実験が行われました。
さらに、アブレーション研究では、MSA-Conv と 2 つの能力強化戦略によってパフォーマンスが向上したことが個別に確認されています。
私たちの提案は、ViT で使用される世界的な注目に代わるものを研究することを目的としているのに対し、MSA-Conv は TiC を ImageNet-1K の最先端のものと同等にすることで私たちの目標を達成していることに注意してください。
コードは https://github.com/zs670980918/MSA-Conv で公開されます。
要約(オリジナル)
While models derived from Vision Transformers (ViTs) have been phonemically surging, pre-trained models cannot seamlessly adapt to arbitrary resolution images without altering the architecture and configuration, such as sampling the positional encoding, limiting their flexibility for various vision tasks. For instance, the Segment Anything Model (SAM) based on ViT-Huge requires all input images to be resized to 1024$\times$1024. To overcome this limitation, we propose the Multi-Head Self-Attention Convolution (MSA-Conv) that incorporates Self-Attention within generalized convolutions, including standard, dilated, and depthwise ones. Enabling transformers to handle images of varying sizes without retraining or rescaling, the use of MSA-Conv further reduces computational costs compared to global attention in ViT, which grows costly as image size increases. Later, we present the Vision Transformer in Convolution (TiC) as a proof of concept for image classification with MSA-Conv, where two capacity enhancing strategies, namely Multi-Directional Cyclic Shifted Mechanism and Inter-Pooling Mechanism, have been proposed, through establishing long-distance connections between tokens and enlarging the effective receptive field. Extensive experiments have been carried out to validate the overall effectiveness of TiC. Additionally, ablation studies confirm the performance improvement made by MSA-Conv and the two capacity enhancing strategies separately. Note that our proposal aims at studying an alternative to the global attention used in ViT, while MSA-Conv meets our goal by making TiC comparable to state-of-the-art on ImageNet-1K. Code will be released at https://github.com/zs670980918/MSA-Conv.
arxiv情報
著者 | Song Zhang,Qingzhong Wang,Jiang Bian,Haoyi Xiong |
発行日 | 2023-10-06 10:16:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google