TPC-ViT: Token Propagation Controller for Efficient Vision Transformer

要約

ビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビジョン タスクで有望な結果を達成していますが、入力トークンの数が 2 次の複雑さであるため、特にリソースに制約のある設定ではその用途が制限されています。
この課題に対処するために段階的なトークン削減を採用するこれまでのアプローチでは、ある層のトークンの冗長性が後続のすべての層の冗長性を意味すると想定していました。
我々は、この仮定が正しくないことが多いこと、つまり、ある層で冗長なトークンが後の層で役立つ可能性があることを経験的に示しています。
私たちは、この重要な洞察を利用して、2 つの異なるトークン配布、つまりトークンの削減と再利用をそれぞれ制御する一時停止確率と再開確率を組み込んだ新しいトークン伝播コントローラー (TPC) を提案します。これにより、より効率的なトークンの利用が可能になります。
トークン分布の推定値を改善するために、正則化機能として機能し、ノイズの多い外れ値を除去するのに役立つ平滑化メカニズムを提案します。
さらに、提案した TPC のトレーニングの安定性を向上させるために、局所的な画像構造を暗黙的にエンコードし、モデルのトレーニング中の精度の変動を最小限に抑えることができるモデル スタビライザーを導入します。
DeiT、LV-ViT、Swin モデルを使用した ImageNet-1K データセットに関する広範な実験結果を提示し、提案した方法の有効性を実証します。
例えば、ベースラインモデルと比較して、私たちの提案手法は、DeiT-S の推論速度を 250% 向上させ、分類精度を 1.0% 向上させます。

要約(オリジナル)

Vision transformers (ViTs) have achieved promising results on a variety of Computer Vision tasks, however their quadratic complexity in the number of input tokens has limited their application specially in resource-constrained settings. Previous approaches that employ gradual token reduction to address this challenge assume that token redundancy in one layer implies redundancy in all the following layers. We empirically demonstrate that this assumption is often not correct, i.e., tokens that are redundant in one layer can be useful in later layers. We employ this key insight to propose a novel token propagation controller (TPC) that incorporates two different token-distributions, i.e., pause probability and restart probability to control the reduction and reuse of tokens respectively, which results in more efficient token utilization. To improve the estimates of token distributions, we propose a smoothing mechanism that acts as a regularizer and helps remove noisy outliers. Furthermore, to improve the training-stability of our proposed TPC, we introduce a model stabilizer that is able to implicitly encode local image structures and minimize accuracy fluctuations during model training. We present extensive experimental results on the ImageNet-1K dataset using DeiT, LV-ViT and Swin models to demonstrate the effectiveness of our proposed method. For example, compared to baseline models, our proposed method improves the inference speed of the DeiT-S by 250% while increasing the classification accuracy by 1.0%.

arxiv情報

著者 Wentao Zhu
発行日 2024-01-08 17:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.NE パーマリンク