What Makes for Good Tokenizers in Vision Transformer?

要約

トランスフォーマーのアーキテクチャは、最近ビジョン タスクで急成長しているアプリケーションを目の当たりにしており、広く普及している畳み込みパラダイムに反対しています。
入力を複数のトークンに分割するトークン化プロセスに依存するトランスフォーマーは、セルフアテンションを使用してペアワイズ関係を抽出できます。
トランスフォーマーの基本的な構成要素である一方で、優れたトークナイザーを構成するものは、コンピューター ビジョンでは十分に理解されていません。
この作業では、この未知の問題を情報のトレードオフの観点から調査します。
既存の構造変更を統合して理解することに加えて、私たちの導出はビジョントークナイザーのより良い設計戦略につながります。
提案されたトークン間変調 (MoTo) には、正規化によるトークン間モデリング機能が組み込まれています。
さらに、正規化の目的である TokenProp が標準のトレーニング体制に組み込まれています。
さまざまな変圧器アーキテクチャに関する広範な実験を通じて、無視できる計算オーバーヘッドで、これら 2 つのプラグアンドプレイ設計のパフォーマンスの向上と興味深い特性の両方が観察されました。
これらの観察結果は、一般的に省略されているビジョン トランスフォーマーのトークナイザーの設計の重要性をさらに示しています。

要約(オリジナル)

The architecture of transformers, which recently witness booming applications in vision tasks, has pivoted against the widespread convolutional paradigm. Relying on the tokenization process that splits inputs into multiple tokens, transformers are capable of extracting their pairwise relationships using self-attention. While being the stemming building block of transformers, what makes for a good tokenizer has not been well understood in computer vision. In this work, we investigate this uncharted problem from an information trade-off perspective. In addition to unifying and understanding existing structural modifications, our derivation leads to better design strategies for vision tokenizers. The proposed Modulation across Tokens (MoTo) incorporates inter-token modeling capability through normalization. Furthermore, a regularization objective TokenProp is embraced in the standard training regime. Through extensive experiments on various transformer architectures, we observe both improved performance and intriguing properties of these two plug-and-play designs with negligible computational overhead. These observations further indicate the importance of the commonly-omitted designs of tokenizers in vision transformer.

arxiv情報

著者 Shengju Qian,Yi Zhu,Wenbo Li,Mu Li,Jiaya Jia
発行日 2022-12-21 15:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク