PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shift

要約

タイトル:PSLT:ラダーセルフアテンションとプログレッシブシフトを備えた軽量ビジョントランスフォーマー

要約:

– ViTは、長距離依存関係をモデル化する能力により、様々な視覚的タスクにおいて大きな可能性を示しているが、グローバルセルフアテンションを計算するために多量のコンピューティングリソースが必要である。
– この研究では、複数のブランチを持つラダーセルフアテンションブロックとプログレッシブシフトメカニズムを提案し、より少ないリソース(例えば、比較的少数のパラメータとFLOPs)で構築される軽量なトランスフォーマーバックボーン、PSLTを開発することを提案している。
– まず、ラダーセルフアテンションブロックは、各ブランチでローカルセルフアテンションをモデル化することにより、計算コストを削減する。同時に、プログレッシブシフトメカニズムは、各ブランチで多様なローカルセルフアテンションをモデル化し、これらのブランチ間で相互作用することによって、ラダーセルフアテンションブロックの受容野を拡大することを提案している。
– 次に、ラダーセルフアテンションブロックの入力特徴は、各ブランチでチャネル次元に沿って均等に分割され、これにより、ラダーセルフアテンションブロックの計算コストがかなり削減される(パラメータとFLOPの約1/3の量)、そしてこれらのブランチの出力はピクセル適応的融合によって協調される。
– 結果として、比較的少数のパラメータとFLOPsを持つラダーセルフアテンションブロックは、長距離の相互作用をモデル化することができる。ラダーセルフアテンションブロックを基にしたPSLTは、画像分類、物体検出、人物再識別などのいくつかのビジョンタスクにおいて良好なパフォーマンスを発揮する。
– ImageNet-1kデータセットで、PSLTは9.2Mのパラメータと1.9GのFLOPsで79.9%のトップ1精度を達成し、20M以上のパラメータと4G FLOPsを持ついくつかの既存のモデルに匹敵する。コードはhttps://isee-ai.cn/wugaojie/PSLT.htmlで入手可能である。

要約(オリジナル)

Vision Transformer (ViT) has shown great potential for various visual tasks due to its ability to model long-range dependency. However, ViT requires a large amount of computing resource to compute the global self-attention. In this work, we propose a ladder self-attention block with multiple branches and a progressive shift mechanism to develop a light-weight transformer backbone that requires less computing resources (e.g. a relatively small number of parameters and FLOPs), termed Progressive Shift Ladder Transformer (PSLT). First, the ladder self-attention block reduces the computational cost by modelling local self-attention in each branch. In the meanwhile, the progressive shift mechanism is proposed to enlarge the receptive field in the ladder self-attention block by modelling diverse local self-attention for each branch and interacting among these branches. Second, the input feature of the ladder self-attention block is split equally along the channel dimension for each branch, which considerably reduces the computational cost in the ladder self-attention block (with nearly 1/3 the amount of parameters and FLOPs), and the outputs of these branches are then collaborated by a pixel-adaptive fusion. Therefore, the ladder self-attention block with a relatively small number of parameters and FLOPs is capable of modelling long-range interactions. Based on the ladder self-attention block, PSLT performs well on several vision tasks, including image classification, objection detection and person re-identification. On the ImageNet-1k dataset, PSLT achieves a top-1 accuracy of 79.9% with 9.2M parameters and 1.9G FLOPs, which is comparable to several existing models with more than 20M parameters and 4G FLOPs. Code is available at https://isee-ai.cn/wugaojie/PSLT.html.

arxiv情報

著者 Gaojie Wu,Wei-Shi Zheng,Yutong Lu,Qi Tian
発行日 2023-04-07 05:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク