Token Transformer: Can class token help window-based transformer build better long-range interactions?

要約

通常のトランスフォーマーと比較して、ウィンドウベースのトランスフォーマーは精度と効率のトレードオフが優れています。
ウィンドウベースのトランスフォーマーは大きな進歩を遂げましたが、その長距離モデリング機能は、ローカル ウィンドウのサイズとウィンドウ接続スキームのために制限されています。
この問題に対処するために、新しいトークン トランスフォーマー (TT) を提案します。
TT のコア メカニズムは、各ローカル ウィンドウのウィンドウ情報を要約するためのクラス (CLS) トークンの追加です。
このタイプのトークン インタラクションを CLS Attention と呼びます。
これらの CLS トークンは、各ウィンドウ内のトークンと空間的に相互作用して、長距離モデリングを可能にします。
ウィンドウベースのトランスフォーマーの階層設計を維持するために、TT の各フェーズで機能継承モジュール (FIM) を設計し、前のフェーズのローカル ウィンドウ情報を次のフェーズの CLS トークンに配信します。
さらに、TT で Spatial-Channel Feedforward Network (SCFFN) を設計しました。これは、CLS トークンと埋め込みトークンを、追加のパラメーターなしで空間ドメインとチャネル ドメインで混在させることができます。
広範な実験により、当社の TT は画像分類と下流のタスクで低いパラメーターで競争力のある結果を達成することが示されています。

要約(オリジナル)

Compared with the vanilla transformer, the window-based transformer offers a better trade-off between accuracy and efficiency. Although the window-based transformer has made great progress, its long-range modeling capabilities are limited due to the size of the local window and the window connection scheme. To address this problem, we propose a novel Token Transformer (TT). The core mechanism of TT is the addition of a Class (CLS) token for summarizing window information in each local window. We refer to this type of token interaction as CLS Attention. These CLS tokens will interact spatially with the tokens in each window to enable long-range modeling. In order to preserve the hierarchical design of the window-based transformer, we designed Feature Inheritance Module (FIM) in each phase of TT to deliver the local window information from the previous phase to the CLS token in the next phase. In addition, we have designed a Spatial-Channel Feedforward Network (SCFFN) in TT, which can mix CLS tokens and embedded tokens on the spatial domain and channel domain without additional parameters. Extensive experiments have shown that our TT achieves competitive results with low parameters in image classification and downstream tasks.

arxiv情報

著者 Jiawei Mao,Yuanqi Chang,Xuesong Yin
発行日 2022-11-11 09:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク