PVT v2: Improved Baselines with Pyramid Vision Transformer

要約

【タイトル】PVT v2:ピラミッド・ビジョン・トランスフォーマーの改良ベースライン

【要約】

– Transformerは、最近コンピュータビジョン分野で取り組んできたように、刺激的な進展を実現している
– この研究では、新しいベースラインを提示する。 オリジナルのピラミッド・ビジョン・トランスフォーマー(PVT v1)を改善する3つの設計 (1) 線形複雑な注意レイヤー (2) 重なり合うパッチ埋め込み、 (3) 畳み込みフィードフォワードネットワークを追加しました
– これらの変更により、PVT v2は、PVT v1の計算複雑度を線形に減らし、分類、検出、セグメンテーションなどの基本的なビジョンタスクで顕著な改善を達成します。
– 特に、提案されたPVT v2は、Swin Transformerなどの最近の論文と比較して、同等またはより優れたパフォーマンスを達成します。
– この研究が、コンピュータビジョン分野で最先端のTransformer研究を促進することを望んでいます。 コードは https://github.com/whai362/PVT で入手可能です。

要約(オリジナル)

Transformer recently has presented encouraging progress in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (PVT v1) by adding three designs, including (1) linear complexity attention layer, (2) overlapping patch embedding, and (3) convolutional feed-forward network. With these modifications, PVT v2 reduces the computational complexity of PVT v1 to linear and achieves significant improvements on fundamental vision tasks such as classification, detection, and segmentation. Notably, the proposed PVT v2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT.

arxiv情報

著者 Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao
発行日 2023-04-17 12:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク