Less is More: Focus Attention for Efficient DETR

要約

DETR のようなモデルは、検出器のパフォーマンスを大幅に向上させ、従来の畳み込みモデルをも上回るパフォーマンスを発揮しました。
ただし、すべてのトークンが差別なく平等に扱われるため、従来のエンコーダ構造では冗長な計算負荷が生じます。
最近のスパース化戦略は、情報トークンのサブセットを活用して、スパース エンコーダーを通じてパフォーマンスを維持しながら、注意の複雑さを軽減します。
しかし、これらの方法は信頼性の低いモデル統計に依存する傾向があります。
さらに、単にトークン数を減らすだけでは検出パフォーマンスが大幅に低下し、これらのスパース モデルの適用が制限されます。
私たちは、計算効率とモデル精度の間のより良いトレードオフを実現するために、より有益なトークンに注目を集める Focus-DETR を提案します。
具体的には、マルチスケール特徴マップからのオブジェクトの位置特定とカテゴリ意味情報の両方を考慮するトークン スコアリング メカニズムを含む、二重注意を使用してエンコーダーを再構築します。
バックグラウンド クエリを効率的に放棄し、スコアに基づいて粒度の細かいオブジェクト クエリのセマンティック インタラクションを強化します。
同じ設定の下で最先端のスパース DETR のような検出器と比較すると、当社の Focus-DETR は同等の複雑さを実現しながら、COCO で 50.4AP (+2.2) を達成します。
コードは https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR および https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR で入手できます。

要約(オリジナル)

DETR-like models have significantly boosted the performance of detectors and even outperformed classical convolutional models. However, all tokens are treated equally without discrimination brings a redundant computational burden in the traditional encoder structure. The recent sparsification strategies exploit a subset of informative tokens to reduce attention complexity maintaining performance through the sparse encoder. But these methods tend to rely on unreliable model statistics. Moreover, simply reducing the token population hinders the detection performance to a large extent, limiting the application of these sparse models. We propose Focus-DETR, which focuses attention on more informative tokens for a better trade-off between computation efficiency and model accuracy. Specifically, we reconstruct the encoder with dual attention, which includes a token scoring mechanism that considers both localization and category semantic information of the objects from multi-scale feature maps. We efficiently abandon the background queries and enhance the semantic interaction of the fine-grained object queries based on the scores. Compared with the state-of-the-art sparse DETR-like detectors under the same setting, our Focus-DETR gets comparable complexity while achieving 50.4AP (+2.2) on COCO. The code is available at https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR and https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.

arxiv情報

著者 Dehua Zheng,Wenhui Dong,Hailin Hu,Xinghao Chen,Yunhe Wang
発行日 2023-07-24 08:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク