要約
ビジョントランスフォーマーの最近の進歩は、ドット積の自己注意に基づく新しい空間モデリングメカニズムによって推進されるさまざまなタスクで大きな成功を収めています。
この論文では、ビジョントランスフォーマーの背後にある重要な要素、つまり入力適応型、長距離、高次の空間的相互作用も、畳み込みベースのフレームワークで効率的に実装できることを示します。
ゲート畳み込みおよび再帰的設計との高次の空間的相互作用を実行する再帰的ゲート畳み込み($ \ textit {g} ^ \ textit {n} $ Conv)を紹介します。
新しい操作は非常に柔軟でカスタマイズ可能であり、畳み込みのさまざまなバリエーションと互換性があり、大幅な余分な計算を導入することなく、自己注意の2次相互作用を任意の次数に拡張します。
$ \ textit {g} ^ \ textit {n} $ Convは、さまざまなビジョントランスフォーマーと畳み込みベースのモデルを改善するためのプラグアンドプレイモジュールとして機能します。
この操作に基づいて、HorNetという名前の汎用ビジョンバックボーンの新しいファミリを構築します。
ImageNet分類、COCOオブジェクト検出、およびADE20Kセマンティックセグメンテーションに関する広範な実験では、HorNetがSwin TransformersおよびConvNeXtを大幅に上回り、全体的なアーキテクチャとトレーニング構成が類似していることが示されています。
HorNetは、より多くのトレーニングデータとより大きなモデルサイズに対しても良好なスケーラビリティを示します。
ビジュアルエンコーダーの有効性とは別に、$ \ textit {g} ^ \ textit {n} $ Convをタスク固有のデコーダーに適用して、少ない計算で高密度の予測パフォーマンスを一貫して向上できることも示しています。
私たちの結果は、$ \ textit {g} ^ \ textit {n} $ Convが、ビジョントランスフォーマーとCNNの両方のメリットを効果的に組み合わせたビジュアルモデリングの新しい基本モジュールになり得ることを示しています。
コードはhttps://github.com/raoyongming/HorNetで入手できます。
要約(オリジナル)
Recent progress in vision Transformers exhibits great success in various tasks driven by the new spatial modeling mechanism based on dot-product self-attention. In this paper, we show that the key ingredients behind the vision Transformers, namely input-adaptive, long-range and high-order spatial interactions, can also be efficiently implemented with a convolution-based framework. We present the Recursive Gated Convolution ($\textit{g}^\textit{n}$Conv) that performs high-order spatial interactions with gated convolutions and recursive designs. The new operation is highly flexible and customizable, which is compatible with various variants of convolution and extends the two-order interactions in self-attention to arbitrary orders without introducing significant extra computation. $\textit{g}^\textit{n}$Conv can serve as a plug-and-play module to improve various vision Transformers and convolution-based models. Based on the operation, we construct a new family of generic vision backbones named HorNet. Extensive experiments on ImageNet classification, COCO object detection and ADE20K semantic segmentation show HorNet outperform Swin Transformers and ConvNeXt by a significant margin with similar overall architecture and training configurations. HorNet also shows favorable scalability to more training data and a larger model size. Apart from the effectiveness in visual encoders, we also show $\textit{g}^\textit{n}$Conv can be applied to task-specific decoders and consistently improve dense prediction performance with less computation. Our results demonstrate that $\textit{g}^\textit{n}$Conv can be a new basic module for visual modeling that effectively combines the merits of both vision Transformers and CNNs. Code is available at https://github.com/raoyongming/HorNet
arxiv情報
著者 | Yongming Rao,Wenliang Zhao,Yansong Tang,Jie Zhou,Ser-Nam Lim,Jiwen Lu |
発行日 | 2022-07-28 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google