Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning

要約

ビジョン変換器は近年、様々なビジョンタスクにおいて競争力のある結果を達成しているが、大量のトークンを処理する際に、依然として重い計算コストに悩まされている。大規模なビジョン変換器、特に画像分類タスクにおいて、トークンの総数を削減するために多くの先進的なアプローチが開発されてきた。一般に、これらのアプローチは、クラストークンとの関連性に応じて必要不可欠なトークンの小グループを選択し、その後、ビジョン変換器の重みを微調整する。このような微調整は、画像分類よりも計算量とGPUメモリコストがはるかに重いため、高密度予測にはあまり実用的でない。本論文では、より挑戦的な問題、すなわち、追加の再トレーニングや微調整を行うことなく、高密度予測のための大規模ビジョン変換器を高速化することに焦点を当てます。高密度予測には高解像度表現が必要であることに対応し、トークン数を減少させるトークンクラスタリング層とトークン数を増加させるトークン再構成層という2つのノンパラメトリック演算子を提示する。(i)トークン・クラスタリング層を用いて、隣接するトークンをクラスタリングし、空間構造を維持した低解像度表現を得る。(ii)これらの低解像度表現またはクラスタリングしたトークンにのみ、以下の変換層を適用する。(iii)トークン再構成層を用いて、洗練された低解像度表現から高解像度表現を再作成する。本手法によって得られた結果は、物体検出、セマンティックセグメンテーション、パノプティックセグメンテーション、インスタンスセグメンテーション、奥行き推定という5つの高密度予測タスクにおいて有望である。

要約(オリジナル)

Vision transformers have recently achieved competitive results across various vision tasks but still suffer from heavy computation costs when processing a large number of tokens. Many advanced approaches have been developed to reduce the total number of tokens in large-scale vision transformers, especially for image classification tasks. Typically, they select a small group of essential tokens according to their relevance with the class token, then fine-tune the weights of the vision transformer. Such fine-tuning is less practical for dense prediction due to the much heavier computation and GPU memory cost than image classification. In this paper, we focus on a more challenging problem, i.e., accelerating large-scale vision transformers for dense prediction without any additional re-training or fine-tuning. In response to the fact that high-resolution representations are necessary for dense prediction, we present two non-parametric operators, a token clustering layer to decrease the number of tokens and a token reconstruction layer to increase the number of tokens. The following steps are performed to achieve this: (i) we use the token clustering layer to cluster the neighboring tokens together, resulting in low-resolution representations that maintain the spatial structures; (ii) we apply the following transformer layers only to these low-resolution representations or clustered tokens; and (iii) we use the token reconstruction layer to re-create the high-resolution representations from the refined low-resolution representations. The results obtained by our method are promising on five dense prediction tasks, including object detection, semantic segmentation, panoptic segmentation, instance segmentation, and depth estimation.

arxiv情報

著者 Weicong Liang,Yuhui Yuan,Henghui Ding,Xiao Luo,Weihong Lin,Ding Jia,Zheng Zhang,Chao Zhang,Han Hu
発行日 2022-10-03 15:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク