要約
タイトル: ViT-Calibrator: Decision Stream Calibration for Vision Transformer
要約:
– Transformersを使ったビジョンタスクにおいて、内部的なモデル構築の最適化が主にされてきたが、トライアルアンドエラーによる負担が高い。
– この研究では、畳み込みニューラルネットワークの情報の伝達機構を探索することによって、ViTの汎用性能を向上する新しい決定ストリームキャリブレーションのパラダイムを提案する。
– この研究では、前景ターゲットのトークン特徴量が可能な限り次のレイヤーに伝達される一方、背景エリアのトークン特徴量は徐々に削除されることが発見された。
– 各カテゴリは、トークンの特定のスパースな寸法に関連付けられていることが発見された。
– 上記の発見に基づき、トークン伝播調整ステージと次元伝播調整ステージの2つのステージから構成されるViT-Calibratorのスキームを設計した。
– 汎用的に使用されるデータセットでの実験結果は、この手法が有望な結果を実現できることを示している。ソースコードがサプリメントに示されている。
要約(オリジナル)
A surge of interest has emerged in utilizing Transformers in diverse vision tasks owing to its formidable performance. However, existing approaches primarily focus on optimizing internal model architecture designs that often entail significant trial and error with high burdens. In this work, we propose a new paradigm dubbed Decision Stream Calibration that boosts the performance of general Vision Transformers. To achieve this, we shed light on the information propagation mechanism in the learning procedure by exploring the correlation between different tokens and the relevance coefficient of multiple dimensions. Upon further analysis, it was discovered that 1) the final decision is associated with tokens of foreground targets, while token features of foreground target will be transmitted into the next layer as much as possible, and the useless token features of background area will be eliminated gradually in the forward propagation. 2) Each category is solely associated with specific sparse dimensions in the tokens. Based on the discoveries mentioned above, we designed a two-stage calibration scheme, namely ViT-Calibrator, including token propagation calibration stage and dimension propagation calibration stage. Extensive experiments on commonly used datasets show that the proposed approach can achieve promising results. The source codes are given in the supplements.
arxiv情報
著者 | Lin Chen,Zhijie Jia,Tian Qiu,Lechao Cheng,Jie Lei,Zunlei Feng,Mingli Song |
発行日 | 2023-05-05 13:41:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI