A Survey on Visual Transformer

要約

Transformer は、自然言語処理の分野に初めて適用された、主に自己注意メカニズムに基づくディープ ニューラル ネットワークの一種です。
その強力な表現機能のおかげで、研究者はトランスフォーマーをコンピュータ ビジョン タスクに適用する方法を検討しています。
さまざまなビジュアル ベンチマークにおいて、トランスフォーマー ベースのモデルは、畳み込みニューラル ネットワークやリカレント ニューラル ネットワークなどの他のタイプのネットワークと同等またはそれよりも優れたパフォーマンスを示します。
トランスは、高性能であり、ビジョン特有の誘導バイアスの必要性が低いため、コンピュータ ビジョン コミュニティからますます注目を集めています。
この論文では、これらのビジョン トランスフォーマー モデルをさまざまなタスクに分類し、その長所と短所を分析することによってレビューします。
私たちが調査する主なカテゴリには、バックボーン ネットワーク、高/中レベルのビジョン、低レベルのビジョン、およびビデオ処理が含まれます。
また、トランスを実際のデバイスベースのアプリケーションにプッシュするための効率的なトランスフォーマー手法も含まれています。
さらに、トランスフォーマーの基本コンポーネントであるコンピューター ビジョンのセルフ アテンション メカニズムについても簡単に説明します。
この論文の終わりに向けて、課題について説明し、ビジョントランスフォーマーに関するさらなる研究の方向性をいくつか示します。

要約(オリジナル)

Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent neural networks. Given its high performance and less need for vision-specific inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these vision transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also include efficient transformer methods for pushing transformer into real device-based applications. Furthermore, we also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Toward the end of this paper, we discuss the challenges and provide several further research directions for vision transformers.

arxiv情報

著者 Kai Han,Yunhe Wang,Hanting Chen,Xinghao Chen,Jianyuan Guo,Zhenhua Liu,Yehui Tang,An Xiao,Chunjing Xu,Yixing Xu,Zhaohui Yang,Yiman Zhang,Dacheng Tao
発行日 2023-07-10 13:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク