Token Transformer: Can class token help window-based transformer build better long-range interactions?


バニラトランスと比較すると、ウィンドウベース・トランスは精度と効率のトレードオフに優れています。窓ベース変換器は大きな進歩を遂げたが、局所窓のサイズと窓接続スキームのために、その長距離モデリング能力は制限されている。この問題を解決するために、我々は新しいトークントランスフォーマー(TT)を提案する。TTの中核となる機構は、各ローカルウィンドウのウィンドウ情報を要約するためのクラス(CLS)トークンを追加することである。我々はこのようなトークン相互作用をCLS Attentionと呼ぶ。これらのCLSトークンは、長距離のモデリングを可能にするために、各ウィンドウのトークンと空間的に相互作用する。ウィンドウベース変換器の階層的な設計を維持するために、TTの各フェーズに特徴継承モジュール(FIM)を設計し、前フェーズのローカルウィンドウ情報を次フェーズのCLSトークンに届けるようにした。さらに、空間領域とチャンネル領域でCLSトークンと埋め込みトークンを混合できる空間チャンネルフィードフォワードネットワーク(SCFFN)をTTに設計し、追加パラメータなしで利用できるようにした。広範な実験により、我々のTTは画像分類と下流タスクにおいて、低いパラメータで競争力のある結果を達成することが示された。


Compared with the vanilla transformer, the window-based transformer offers a better trade-off between accuracy and efficiency. Although the window-based transformer has made great progress, its long-range modeling capabilities are limited due to the size of the local window and the window connection scheme. To address this problem, we propose a novel Token Transformer (TT). The core mechanism of TT is the addition of a Class (CLS) token for summarizing window information in each local window. We refer to this type of token interaction as CLS Attention. These CLS tokens will interact spatially with the tokens in each window to enable long-range modeling. In order to preserve the hierarchical design of the window-based transformer, we designed Feature Inheritance Module (FIM) in each phase of TT to deliver the local window information from the previous phase to the CLS token in the next phase. In addition, we have designed a Spatial-Channel Feedforward Network (SCFFN) in TT, which can mix CLS tokens and embedded tokens on the spatial domain and channel domain without additional parameters. Extensive experiments have shown that our TT achieves competitive results with low parameters in image classification and downstream tasks.


著者 Jiawei Mao,Yuanqi Chang,Xuesong Yin
発行日 2023-01-03 09:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク