Grafting Vision Transformers

要約

タイトル:Vision Transformersのグラフト技術

要約:
– Vision Transformers (ViTs)は近年、多くのコンピュータビジョンタスクで最先端となっています。
– 畳み込みネットワーク(CNN)に対して、ViTsは、浅い層でもグローバル情報の共有を可能にし、高解像度の特徴においてもさらに良い性能を実現しています。
– しかし、Swin Transformerのようなピラミッド構造が成功し、この特典は後に見過ごされました。
– この論文では、グローバル依存関係とマルチスケール情報を考慮した単純で効率的なアドオンコンポーネント(GrafT)を提案しています。
– GrafTは、バックボーンの大部分のパラメータと計算を共有し、任意の深さで枝分かれする柔軟性を持っています。
– GrafTは、モバイルサイズモデルにより高レベルの意味を提供することによって、様々なよく知られたモデルに対して一貫した利益を示しました。
– 特に、ImageNet-1kデータセットでは、GrafTは、DeiT-T、Swin-T、MobileViT-XXSに対して、それぞれ+3.9%、+1.4%、+1.9%のトップ1精度の向上を実現します。
– この研究のコードとモデルは公開予定です。

要約(オリジナル)

Vision Transformers (ViTs) have recently become the state-of-the-art across many computer vision tasks. In contrast to convolutional networks (CNNs), ViTs enable global information sharing even within shallow layers of a network, i.e., among high-resolution features. However, this perk was later overlooked with the success of pyramid architectures such as Swin Transformer, which show better performance-complexity trade-offs. In this paper, we present a simple and efficient add-on component (termed GrafT) that considers global dependencies and multi-scale information throughout the network, in both high- and low-resolution features alike. It has the flexibility of branching out at arbitrary depths and shares most of the parameters and computations of the backbone. GrafT shows consistent gains over various well-known models which includes both hybrid and pure Transformer types, both homogeneous and pyramid structures, and various self-attention methods. In particular, it largely benefits mobile-size models by providing high-level semantics. On the ImageNet-1k dataset, GrafT delivers +3.9%, +1.4%, and +1.9% top-1 accuracy improvement to DeiT-T, Swin-T, and MobileViT-XXS, respectively. Our code and models will be made available.

arxiv情報

著者 Jongwoo Park,Kumara Kahatapitiya,Donghyun Kim,Shivchander Sudalairaj,Quanfu Fan,Michael S. Ryoo
発行日 2023-04-03 14:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク