要約
最近のビジョントランスフォーマーの進歩は、ドットプロダクトセルフアテンションに基づく新しい空間モデリングメカニズムによって、様々なタスクで大きな成功を示している。本論文では、Vision Transformersの背後にある重要な要素、すなわち、入力適応的、長距離、高次の空間相互作用が、畳み込みベースのフレームワークでも効率的に実装可能であることを示す。我々は、ゲートコンボリューションと再帰的デザインにより高次空間相互作用を実行するRecursive Gated Convolution ($TEKTEXTIT{G}^TEXTIT{N}$Conv) を提示する。この新しい操作は、様々なバリエーションの畳み込みと互換性があり、大きな余分な計算を導入することなく、自己注意の2次相互作用を任意の次数に拡張する、柔軟でカスタマイズ性の高い操作である。また、$textit{g}^textit{n}$Convは、様々なVision Transformerや畳み込みに基づくモデルを改良するためのプラグアンドプレイモジュールとして機能することができる。この操作に基づき、HorNetと名付けられた新しい汎用ビジョンバックボーンファミリーを構築する。ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションに関する広範な実験により、HorNetは全体的なアーキテクチャと学習構成が似ているSwin TransformersとConvNeXtに大きな差をつけて上回ることが示された。また、HorNetはより多くの学習データとより大きなモデルサイズに対して良好なスケーラビリティを示しています。視覚エンコーダでの有効性とは別に、$textit{g}^textit{n}$Convがタスク固有のデコーダに適用でき、少ない計算で密な予測性能を一貫して改善できることも示します。この結果は、$textit{g}^textit{n}$ConvがVision TransformerとCNNの両方の利点を効果的に組み合わせた視覚モデリングのための新しい基本モジュールになり得ることを示している。コードは https://github.com/raoyongming/HorNet で公開されています。
要約(オリジナル)
Recent progress in vision Transformers exhibits great success in various tasks driven by the new spatial modeling mechanism based on dot-product self-attention. In this paper, we show that the key ingredients behind the vision Transformers, namely input-adaptive, long-range and high-order spatial interactions, can also be efficiently implemented with a convolution-based framework. We present the Recursive Gated Convolution ($\textit{g}^\textit{n}$Conv) that performs high-order spatial interactions with gated convolutions and recursive designs. The new operation is highly flexible and customizable, which is compatible with various variants of convolution and extends the two-order interactions in self-attention to arbitrary orders without introducing significant extra computation. $\textit{g}^\textit{n}$Conv can serve as a plug-and-play module to improve various vision Transformers and convolution-based models. Based on the operation, we construct a new family of generic vision backbones named HorNet. Extensive experiments on ImageNet classification, COCO object detection and ADE20K semantic segmentation show HorNet outperform Swin Transformers and ConvNeXt by a significant margin with similar overall architecture and training configurations. HorNet also shows favorable scalability to more training data and a larger model size. Apart from the effectiveness in visual encoders, we also show $\textit{g}^\textit{n}$Conv can be applied to task-specific decoders and consistently improve dense prediction performance with less computation. Our results demonstrate that $\textit{g}^\textit{n}$Conv can be a new basic module for visual modeling that effectively combines the merits of both vision Transformers and CNNs. Code is available at https://github.com/raoyongming/HorNet
arxiv情報
| 著者 | Yongming Rao,Wenliang Zhao,Yansong Tang,Jie Zhou,Ser-Nam Lim,Jiwen Lu | 
| 発行日 | 2022-08-09 14:07:49+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
