Revisiting Token Pruning for Object Detection and Instance Segmentation

要約

ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンで優れたパフォーマンスを示していますが、トークン数の 2 次で計算コストが高いため、計算に制約のあるアプリケーションでの採用は制限されています。
ただし、すべてのトークンが同じように重要であるわけではないため、この多数のトークンは必要ない場合があります。
この論文では、画像分類からの従来の研究を拡張して、オブジェクト検出とインスタンスのセグメンテーションの推論を高速化するトークン プルーニングを調査します。
広範な実験を通じて、私たちは高密度タスクに関する 4 つの洞察を提供します。(i) トークンは完全に枝刈りして破棄するのではなく、後で使用できるように特徴マップに保存する必要があります。
(ii) 以前にプルーニングされたトークンを再アクティブ化すると、モデルのパフォーマンスをさらに向上させることができます。
(iii) 画像に基づく動的枝刈り率は、固定枝刈り率よりも優れています。
(iv) 軽量の 2 層 MLP はトークンを効果的にプルーニングでき、より単純な設計で複雑なゲート ネットワークに匹敵する精度を達成します。
我々は、これらの設計選択が COCO データセットに及ぼす影響を評価し、これらの洞察を統合して、従来技術のトークン枝刈りモデルを上回るパフォーマンスを実現し、ボックスとマスクの両方でパフォーマンスの低下を最大 1.5 mAP から最大 0.3 mAP に大幅に削減する方法を提示します。
すべてのトークンを使用する高密度の対応物と比較して、私たちの方法はネットワーク全体で最大 34%、バックボーンで最大 46% 高速な推論速度を達成します。

要約(オリジナル)

Vision Transformers (ViTs) have shown impressive performance in computer vision, but their high computational cost, quadratic in the number of tokens, limits their adoption in computation-constrained applications. However, this large number of tokens may not be necessary, as not all tokens are equally important. In this paper, we investigate token pruning to accelerate inference for object detection and instance segmentation, extending prior works from image classification. Through extensive experiments, we offer four insights for dense tasks: (i) tokens should not be completely pruned and discarded, but rather preserved in the feature maps for later use. (ii) reactivating previously pruned tokens can further enhance model performance. (iii) a dynamic pruning rate based on images is better than a fixed pruning rate. (iv) a lightweight, 2-layer MLP can effectively prune tokens, achieving accuracy comparable with complex gating networks with a simpler design. We evaluate the impact of these design choices on COCO dataset and present a method integrating these insights that outperforms prior art token pruning models, significantly reducing performance drop from ~1.5 mAP to ~0.3 mAP for both boxes and masks. Compared to the dense counterpart that uses all tokens, our method achieves up to 34% faster inference speed for the whole network and 46% for the backbone.

arxiv情報

著者 Yifei Liu,Mathias Gehrig,Nico Messikommer,Marco Cannici,Davide Scaramuzza
発行日 2023-09-07 12:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク