Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale Feature Fusion

要約

最近提案されたDEtectionTRansformer(DETR)は、オブジェクト検出のための完全なエンドツーエンドのパラダイムを確立しました。
ただし、DETRはトレーニングの収束が遅いため、さまざまな検出タスクへの適用が妨げられます。
DETRの収束が遅いのは、主に、オブジェクトクエリとエンコードされた画像の特徴の間のセマンティクスが調整されていないために、オブジェクトクエリを関連する領域に一致させることが難しいことに起因していることがわかります。
この観察により、DETRの収束を加速し、検出パフォーマンスを向上させるために、セマンティックアラインマッチングDETR ++(SAM-DETR ++)を設計します。
SAM-DETR ++のコアは、オブジェクトクエリとエンコードされた画像機能を同じ機能埋め込みスペースに投影するプラグアンドプレイモジュールです。各オブジェクトクエリは、同様のセマンティクスを持つ関連領域に簡単に一致させることができます。
さらに、SAM-DETR ++は、複数の代表的なキーポイントを検索し、それらの機能を活用して、表現能力が強化されたセマンティックアラインマッチングを実現します。
さらに、SAM-DETR ++は、設計されたセマンティックアラインマッチングに基づいて、マルチスケール機能を大まかな方法​​から細かい方法で効果的に融合できます。
広範な実験は、提案されたSAM-DETR++が優れた収束速度と競争力のある検出精度を達成することを示しています。
さらに、プラグアンドプレイ方式として、SAM-DETR ++は既存のDETRコンバージェンスソリューションをさらに優れたパフォーマンスで補完し、ResNet-50を使用したCOCO val2017でわずか12トレーニングエポックで44.8%AP、50トレーニングエポックで49.1%APを達成します。
コードはhttps://github.com/ZhangGongjie/SAM-DETRで入手できます。

要約(オリジナル)

The recently proposed DEtection TRansformer (DETR) has established a fully end-to-end paradigm for object detection. However, DETR suffers from slow training convergence, which hinders its applicability to various detection tasks. We observe that DETR’s slow convergence is largely attributed to the difficulty in matching object queries to relevant regions due to the unaligned semantics between object queries and encoded image features. With this observation, we design Semantic-Aligned-Matching DETR++ (SAM-DETR++) to accelerate DETR’s convergence and improve detection performance. The core of SAM-DETR++ is a plug-and-play module that projects object queries and encoded image features into the same feature embedding space, where each object query can be easily matched to relevant regions with similar semantics. Besides, SAM-DETR++ searches for multiple representative keypoints and exploits their features for semantic-aligned matching with enhanced representation capacity. Furthermore, SAM-DETR++ can effectively fuse multi-scale features in a coarse-to-fine manner on the basis of the designed semantic-aligned matching. Extensive experiments show that the proposed SAM-DETR++ achieves superior convergence speed and competitive detection accuracy. Additionally, as a plug-and-play method, SAM-DETR++ can complement existing DETR convergence solutions with even better performance, achieving 44.8% AP with merely 12 training epochs and 49.1% AP with 50 training epochs on COCO val2017 with ResNet-50. Codes are available at https://github.com/ZhangGongjie/SAM-DETR .

arxiv情報

著者 Gongjie Zhang,Zhipeng Luo,Yingchen Yu,Jiaxing Huang,Kaiwen Cui,Shijian Lu,Eric P. Xing
発行日 2022-07-28 15:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク