Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation

要約

ビジョン トランスフォーマーは、さまざまな視覚タスクで優れたパフォーマンスを達成していますが、依然として高い計算の複雑さに悩まされています。
セマンティック セグメンテーションのような高密度の予測タスクでは、通常、高解像度の入力と出力は計算に関与するトークンが増えることを意味するため、状況はさらに悪化します。
あまり注意力のないトークンを直接削除することは、画像分類タスクについて議論されていますが、パッチごとに高密度の予測が必要であるため、セマンティック セグメンテーションに拡張することはできません。
この目的を達成するために、この研究では、セマンティック セグメンテーションのためのトークンの早期終了に基づく動的トークン プルーニング (DToP) メソッドを導入します。
人間による粗いセグメンテーション プロセスから細かいセグメンテーション プロセスを動機として、広く採用されている補助損失ベースのネットワーク アーキテクチャを自然にいくつかの段階に分割し、各補助ブロックがすべてのトークンの難易度を等級付けします。
前方パス全体を完了しなくても、簡単なトークンの予測を事前に完了することができます。
さらに、代表的なコンテキスト情報を維持するために、意味カテゴリごとに $k$ の最高信頼度トークンを保持します。
したがって、人間がセグメンテーションを行う方法と同様に、計算の複雑さは入力の難易度に応じて変化します。
実験によれば、提案された DToP アーキテクチャは、精度を低下させることなく、プレーン ビジョン トランスフォーマーに基づく現在のセマンティック セグメンテーション手法の計算コストを平均 $20\% ~ 35\%$ 削減できることがわかりました。

要約(オリジナル)

Vision transformers have achieved leading performance on various visual tasks yet still suffer from high computational complexity. The situation deteriorates in dense prediction tasks like semantic segmentation, as high-resolution inputs and outputs usually imply more tokens involved in computations. Directly removing the less attentive tokens has been discussed for the image classification task but can not be extended to semantic segmentation since a dense prediction is required for every patch. To this end, this work introduces a Dynamic Token Pruning (DToP) method based on the early exit of tokens for semantic segmentation. Motivated by the coarse-to-fine segmentation process by humans, we naturally split the widely adopted auxiliary-loss-based network architecture into several stages, where each auxiliary block grades every token’s difficulty level. We can finalize the prediction of easy tokens in advance without completing the entire forward pass. Moreover, we keep $k$ highest confidence tokens for each semantic category to uphold the representative context information. Thus, computational complexity will change with the difficulty of the input, akin to the way humans do segmentation. Experiments suggest that the proposed DToP architecture reduces on average $20\% – 35\%$ of computational cost for current semantic segmentation methods based on plain vision transformers without accuracy degradation.

arxiv情報

著者 Quan Tang,Bowen Zhang,Jiajun Liu,Fagiu Liu,Yifan Liu
発行日 2023-08-02 09:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク