要約
ビジョン トランスフォーマー (ViT) は、その優れたパフォーマンスにより、ビジョン タスク用の一般的なアーキテクチャとして登場しました。
ただし、長いトークン シーケンスの処理、特に高解像度の入力を必要とする高密度の予測タスクの処理となると、ViT の複雑さは大幅に増加します。
特に、セマンティック セグメンテーションやオブジェクト検出などの高密度予測タスクでは、オブジェクトの輪郭や形状がより強調されますが、オブジェクト内部のテクスチャは情報量が少なくなります。
この観察に基づいて、重要性に応じて画像内のさまざまな領域に適応解像度を適用することを提案します。
具体的には、ViT の中間層で、空間認識密度ベースのクラスタリング アルゴリズムを利用して、トークン シーケンスから代表的なトークンを選択します。
代表トークンが決定したら、他のトークンを最も近い代表トークンにマージします。
その結果、意味的に類似したトークンはマージされて低解像度領域が形成されますが、意味的に無関係なトークンは高解像度領域として独立して保存されます。
この戦略により、トークンの数が効果的に削減され、後続のレイヤーが減少したトークン シーケンスを処理して高速化を実現できるようになります。
提案した手法を 3 つの異なるデータセットで評価し、有望なパフォーマンスを観察しました。
たとえば、「Segmenter ViT-L」モデルは、パフォーマンスを維持したまま、微調整なしで 48% FPS の高速化が可能です。
さらに、私たちの方法は微調整を高速化するためにも適用できます。
実験結果では、トレーニング時間を 52% 節約しながら、FPS を 2.46 倍加速し、パフォーマンスの低下はわずか 0.09% であることが実証されました。
コードは https://github.com/caddyless/ailurus/tree/main で入手できます。
要約(オリジナル)
Vision transformers (ViTs) have emerged as a prevalent architecture for vision tasks owing to their impressive performance. However, when it comes to handling long token sequences, especially in dense prediction tasks that require high-resolution input, the complexity of ViTs increases significantly. Notably, dense prediction tasks, such as semantic segmentation or object detection, emphasize more on the contours or shapes of objects, while the texture inside objects is less informative. Motivated by this observation, we propose to apply adaptive resolution for different regions in the image according to their importance. Specifically, at the intermediate layer of the ViT, we utilize a spatial-aware density-based clustering algorithm to select representative tokens from the token sequence. Once the representative tokens are determined, we proceed to merge other tokens into their closest representative token. Consequently, semantic similar tokens are merged together to form low-resolution regions, while semantic irrelevant tokens are preserved independently as high-resolution regions. This strategy effectively reduces the number of tokens, allowing subsequent layers to handle a reduced token sequence and achieve acceleration. We evaluate our proposed method on three different datasets and observe promising performance. For example, the ‘Segmenter ViT-L’ model can be accelerated by 48% FPS without fine-tuning, while maintaining the performance. Additionally, our method can be applied to accelerate fine-tuning as well. Experimental results demonstrate that we can save 52% training time while accelerating 2.46 times FPS with only a 0.09% performance drop. The code is available at https://github.com/caddyless/ailurus/tree/main.
arxiv情報
著者 | Jin Li,Yaoming Wang,Xiaopeng Zhang,Bowen Shi,Dongsheng Jiang,Chenglin Li,Wenrui Dai,Hongkai Xiong,Qi Tian |
発行日 | 2023-11-02 12:48:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google