Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR

要約

最近の DEtection TRansformer ベース (DETR) モデルは、驚くべきパフォーマンスを達成しています。
その成功は、エンコーダーでのマルチスケール機能融合の再導入なしでは達成できません。
ただし、特に低レベルの機能の約 75\% では、マルチスケールの機能で過度に増加したトークンは、計算効率が非常に悪く、DETR モデルの実際の適用を妨げます。
このホワイト ペーパーでは、元のパフォーマンスの 99\% を維持しながら、検出ヘッドの GFLOP を効果的に 60\% 削減できる、シンプルかつ効率的なエンド ツー エンドのオブジェクト検出フレームワークである Lite DETR を紹介します。
具体的には、高レベルの機能 (低解像度の機能マップに対応) と低レベルの機能 (高解像度の機能マップに対応) を交互に更新する効率的なエンコーダ ブロックを設計します。
さらに、クロススケール機能をより適切に融合するために、より信頼性の高い注意の重みを予測するためのキー認識型の変形可能な注意を開発します。
包括的な実験により、提案された Lite DETR の有効性と効率性が検証され、効率的なエンコーダー戦略は、既存の DETR ベースのモデル全体でうまく一般化できます。
コードは \url{https://github.com/IDEA-Research/Lite-DETR} で入手できます。

要約(オリジナル)

Recent DEtection TRansformer-based (DETR) models have obtained remarkable performance. Its success cannot be achieved without the re-introduction of multi-scale feature fusion in the encoder. However, the excessively increased tokens in multi-scale features, especially for about 75\% of low-level features, are quite computationally inefficient, which hinders real applications of DETR models. In this paper, we present Lite DETR, a simple yet efficient end-to-end object detection framework that can effectively reduce the GFLOPs of the detection head by 60\% while keeping 99\% of the original performance. Specifically, we design an efficient encoder block to update high-level features (corresponding to small-resolution feature maps) and low-level features (corresponding to large-resolution feature maps) in an interleaved way. In addition, to better fuse cross-scale features, we develop a key-aware deformable attention to predict more reliable attention weights. Comprehensive experiments validate the effectiveness and efficiency of the proposed Lite DETR, and the efficient encoder strategy can generalize well across existing DETR-based models. The code will be available in \url{https://github.com/IDEA-Research/Lite-DETR}.

arxiv情報

著者 Feng Li,Ailing Zeng,Shilong Liu,Hao Zhang,Hongyang Li,Lei Zhang,Lionel M. Ni
発行日 2023-03-13 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク