Active Token Mixer

要約

既存の 3 つの主要なネットワーク ファミリ、つまり CNN、Transformer、および MLP は、主に空間コンテキスト情報を融合する方法が互いに異なり、バックボーン アーキテクチャ開発の中核にあるより効果的なトークン混合メカニズムの設計が残されています。
この作業では、アクティブトークンミキサー(ATM)と呼ばれる革新的なトークンミキサーを提案し、他のトークンからさまざまなチャネルに分散された柔軟なコンテキスト情報を特定のクエリトークンに積極的に組み込みます。
この基本的なオペレーターは、有用なコンテキストをキャプチャする場所を積極的に予測し、キャプチャされたコンテキストをチャネル レベルでクエリ トークンと融合する方法を学習します。
このようにして、トークン混合の空間的範囲は、限られた計算上の複雑さでグローバルな範囲に拡張でき、トークン混合の方法が改革されます。
私たちは ATM を主要なオペレーターとして採用し、ATMNet と呼ばれるカスケード アーキテクチャに ATM を組み立てます。
広範な実験により、ATMNet は一般的に適用可能であり、視覚認識や高密度予測タスクを含む幅広いビジョン タスクにおいて、SOTA ビジョン バックボーンのさまざまなファミリーを包括的に凌駕することが実証されています。
コードは https://github.com/microsoft/ActiveMLP で入手できます。

要約(オリジナル)

The three existing dominant network families, i.e., CNNs, Transformers, and MLPs, differ from each other mainly in the ways of fusing spatial contextual information, leaving designing more effective token-mixing mechanisms at the core of backbone architecture development. In this work, we propose an innovative token-mixer, dubbed Active Token Mixer (ATM), to actively incorporate flexible contextual information distributed across different channels from other tokens into the given query token. This fundamental operator actively predicts where to capture useful contexts and learns how to fuse the captured contexts with the query token at channel level. In this way, the spatial range of token-mixing can be expanded to a global scope with limited computational complexity, where the way of token-mixing is reformed. We take ATM as the primary operator and assemble ATMs into a cascade architecture, dubbed ATMNet. Extensive experiments demonstrate that ATMNet is generally applicable and comprehensively surpasses different families of SOTA vision backbones by a clear margin on a broad range of vision tasks, including visual recognition and dense prediction tasks. Code is available at https://github.com/microsoft/ActiveMLP.

arxiv情報

著者 Guoqiang Wei,Zhizheng Zhang,Cuiling Lan,Yan Lu,Zhibo Chen
発行日 2022-12-23 07:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク