MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers

要約

Vision Transformers への入力トークンは、その内容に関係なく、入力画像の通常の等しいサイズのパッチとして定義されるため、意味論的な意味はほとんどありません。
ただし、画像の均一な背景領域を処理する場合、密集した乱雑な領域ほど多くの計算は必要ありません。
この問題に対処するために、ViT、MSViT 用の動的な混合スケールのトークン化スキームを提案します。
私たちの方法では、入力ごとにトークンの数が動的に決定されるように、画像領域ごとに最適なトークン スケールを選択する条件付きゲート メカニズムを導入しています。
提案されたゲート モジュールは軽量で、トランスフォーマー バックボーンの選択に依存せず、わずかなトレーニング オーバーヘッドで数エポック (たとえば、ImageNet では 20 エポック) 以内にトレーニングされます。
さらに、トレーニング中のゲートの条件付き動作を強化するために、バッチ整形損失の新しい一般化を導入します。
私たちのゲーティング モジュールが、粗いパッチ レベルでローカルに動作しているにもかかわらず、意味のあるセマンティクスを学習できることを示します。
精度と複雑さのトレードオフの向上につながる分類とセグメンテーションのタスクに関して MSViT を検証します。

要約(オリジナル)

The input tokens to Vision Transformers carry little semantic meaning as they are defined as regular equal-sized patches of the input image, regardless of its content. However, processing uniform background areas of an image should not necessitate as much compute as dense, cluttered areas. To address this issue, we propose a dynamic mixed-scale tokenization scheme for ViT, MSViT. Our method introduces a conditional gating mechanism that selects the optimal token scale for every image region, such that the number of tokens is dynamically determined per input. The proposed gating module is lightweight, agnostic to the choice of transformer backbone, and trained within a few epochs (e.g., 20 epochs on ImageNet) with little training overhead. In addition, to enhance the conditional behavior of the gate during training, we introduce a novel generalization of the batch-shaping loss. We show that our gating module is able to learn meaningful semantics despite operating locally at the coarse patch-level. We validate MSViT on the tasks of classification and segmentation where it leads to improved accuracy-complexity trade-off.

arxiv情報

著者 Jakob Drachmann Havtorn,Amelie Royer,Tijmen Blankevoort,Babak Ehteshami Bejnordi
発行日 2023-07-05 14:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク