DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

要約

事実上の解決策として、バニラビジョントランスフォーマー(ViTs)は、グローバルアテンド受容野が二次的な計算コストにつながる一方で、任意の画像パッチ間の長距離依存性をモデル化することが奨励されている。また、Vision Transformerの別の枝では、CNNに触発された局所的な注意を利用し、小さな近傍領域のパッチ間の相互作用のみをモデル化しています。このような解決法は計算量を減らすことができるが、当然ながら小さな有人受容野に悩まされ、性能が制限される可能性がある。本研究では、計算量と有人受容野の大きさのトレードオフを追求するために、有効なVision Transformerを探索する。ViTにおけるグローバルな注意のパッチ相互作用を分析することにより、我々は浅い層における2つの重要な特性、すなわち局所性と疎性を観察し、ViTの浅い層におけるグローバルな依存性モデリングの冗長性を示唆する。そこで、我々は、スライディングウィンドウ内の局所的かつ疎なパッチ相互作用をモデル化するために、マルチスケール拡張注意(MSDA)を提案する。ピラミッド型アーキテクチャにより、低レベルのMSDAブロックと高レベルのグローバルマルチヘッド自己注意ブロックを積み重ねることで、マルチスケール拡張トランスフォーマー(DilateFormer)を構築する。実験の結果、我々のDilateFormerは様々なビジョンタスクにおいて最先端の性能を達成することがわかった。ImageNet-1K分類課題では、DilateFormerは既存の最先端モデルと比較して70%少ないFLOPsで同等の性能を達成しました。また、DilateFormer-Baseは、ImageNet-1K分類タスクで85.6%のトップ1精度、COCO物体検出/インスタンス分割タスクで53.5%のボックスMAP/46.1%のマスクMAP、ADE20K意味分割タスクで51.1%のMS mIoUを達成することが分かりました。

要約(オリジナル)

As a de facto solution, the vanilla Vision Transformers (ViTs) are encouraged to model long-range dependencies between arbitrary image patches while the global attended receptive field leads to quadratic computational cost. Another branch of Vision Transformers exploits local attention inspired by CNNs, which only models the interactions between patches in small neighborhoods. Although such a solution reduces the computational cost, it naturally suffers from small attended receptive fields, which may limit the performance. In this work, we explore effective Vision Transformers to pursue a preferable trade-off between the computational complexity and size of the attended receptive field. By analyzing the patch interaction of global attention in ViTs, we observe two key properties in the shallow layers, namely locality and sparsity, indicating the redundancy of global dependency modeling in shallow layers of ViTs. Accordingly, we propose Multi-Scale Dilated Attention (MSDA) to model local and sparse patch interaction within the sliding window. With a pyramid architecture, we construct a Multi-Scale Dilated Transformer (DilateFormer) by stacking MSDA blocks at low-level stages and global multi-head self-attention blocks at high-level stages. Our experiment results show that our DilateFormer achieves state-of-the-art performance on various vision tasks. On ImageNet-1K classification task, DilateFormer achieves comparable performance with 70% fewer FLOPs compared with existing state-of-the-art models. Our DilateFormer-Base achieves 85.6% top-1 accuracy on ImageNet-1K classification task, 53.5% box mAP/46.1% mask mAP on COCO object detection/instance segmentation task and 51.1% MS mIoU on ADE20K semantic segmentation task.

arxiv情報

著者 Jiayu Jiao,Yu-Ming Tang,Kun-Yu Lin,Yipeng Gao,Jinhua Ma,Yaowei Wang,Wei-Shi Zheng
発行日 2023-02-03 14:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク