要約
注意に基づくエンコーダ・デコーダモデルであるトランスフォーマーは、既に自然言語処理(NLP)の分野に革命を起こしています。このような重要な業績に触発され、最近、コンピュータビジョン(CV)分野でTransformerに好意的なアーキテクチャを採用する先駆的な研究が行われ、3つの基本的なCVタスク(分類、検出、セグメンテーション)と同様に複数の感覚データストリーム(画像、点群、視覚言語データ)に対してその有効性が実証されている。視覚トランスフォーマーは、その優れたモデリング能力により、最新の畳み込みニューラルネットワーク(CNN)と比較して、複数のベンチマークで目覚ましい性能向上を達成しています。本調査では、3つの基本的なCVタスクと異なるデータストリームタイプに応じて、100以上の異なるビジュアルトランスフォーマーを包括的にレビューし、その動機、構造、およびアプリケーションシナリオに応じて代表的な手法を整理するための分類法を提案した。また、学習設定や専用のビジョンタスクの違いから、これら既存の視覚変換器を異なる構成で評価・比較しました。さらに、我々は、視覚的変換器と逐次的変換器の間のギャップを埋めるために、高レベルの意味的埋め込みを緩くするなど、視覚的変換器が多くのアーキテクチャから際立つ力を与えるかもしれない、一連の必須だが未開拓の側面を明らかにした。最後に、3つの有望な研究の方向性を提案し、今後の投資につなげる。今後も、最新の論文とその公開されたソースコードを https://github.com/liuyang-ict/awesome-visual-transformers で更新していく予定です。
要約(オリジナル)
Transformer, an attention-based encoder-decoder model, has already revolutionized the field of natural language processing (NLP). Inspired by such significant achievements, some pioneering works have recently been done on employing Transformer-liked architectures in the computer vision (CV) field, which have demonstrated their effectiveness on three fundamental CV tasks (classification, detection, and segmentation) as well as multiple sensory data stream (images, point clouds, and vision-language data). Because of their competitive modeling capabilities, the visual Transformers have achieved impressive performance improvements over multiple benchmarks as compared with modern Convolution Neural Networks (CNNs). In this survey, we have reviewed over one hundred of different visual Transformers comprehensively according to three fundamental CV tasks and different data stream types, where a taxonomy is proposed to organize the representative methods according to their motivations, structures, and application scenarios. Because of their differences on training settings and dedicated vision tasks, we have also evaluated and compared all these existing visual Transformers under different configurations. Furthermore, we have revealed a series of essential but unexploited aspects that may empower such visual Transformers to stand out from numerous architectures, e.g., slack high-level semantic embeddings to bridge the gap between the visual Transformers and the sequential ones. Finally, three promising research directions are suggested for future investment. We will continue to update the latest articles and their released source codes at https://github.com/liuyang-ict/awesome-visual-transformers.
arxiv情報
著者 | Yang Liu,Yao Zhang,Yixin Wang,Feng Hou,Jin Yuan,Jiang Tian,Yang Zhang,Zhongchao Shi,Jianping Fan,Zhiqiang He |
発行日 | 2022-12-06 16:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |