要約
最近、DETRに基づく主要なアプローチは、Transformer検出器の収束を加速するために、中心概念空間事前処理を適用している。これらの手法は、参照点をターゲットオブジェクトの中心に徐々に絞り込み、オブジェクトクエリに空間的条件付き注意のための更新された中心参照情報を付与する。しかし、参照点の中心化により、クエリの顕著性が著しく低下し、無差別な空間事前分布により検出器を混乱させる可能性がある。顕著なクエリの参照点とTransformer検出器の間のギャップを埋めるために、我々はオブジェクト検出を顕著な点からインスタンスオブジェクトへの変換として扱うことにより、SAlient Point-based DETR(SAP-DETR)を提案する。SAP-DETRでは、各オブジェクトクエリに対してクエリ固有の参照点を明示的に初期化し、それらを徐々にインスタンスオブジェクトに集約し、バウンディングボックスの各辺からこれらの点までの距離を予測する。SAP-DETRは、画像特徴からクエリ固有の参照領域と他の条件付き極限領域に迅速に対応することで、顕著な点とクエリに基づくTransformer検出器の間のギャップを、有意な収束速度で効果的に埋め合わせることができる。我々の広範な実験により、SAP-DETRは競争力のある性能で1.4倍の収束速度を達成することが実証された。標準的な学習スキームでは、SAP-DETRはSOTAアプローチを1.0 APで安定的に促進する。ResNet-DC-101に基づくと、SAP-DETRは46.9APを達成する。
要約(オリジナル)
Recently, the dominant DETR-based approaches apply central-concept spatial prior to accelerate Transformer detector convergency. These methods gradually refine the reference points to the center of target objects and imbue object queries with the updated central reference information for spatially conditional attention. However, centralizing reference points may severely deteriorate queries’ saliency and confuse detectors due to the indiscriminative spatial prior. To bridge the gap between the reference points of salient queries and Transformer detectors, we propose SAlient Point-based DETR (SAP-DETR) by treating object detection as a transformation from salient points to instance objects. In SAP-DETR, we explicitly initialize a query-specific reference point for each object query, gradually aggregate them into an instance object, and then predict the distance from each side of the bounding box to these points. By rapidly attending to query-specific reference region and other conditional extreme regions from the image features, SAP-DETR can effectively bridge the gap between the salient point and the query-based Transformer detector with a significant convergency speed. Our extensive experiments have demonstrated that SAP-DETR achieves 1.4 times convergency speed with competitive performance. Under the standard training scheme, SAP-DETR stably promotes the SOTA approaches by 1.0 AP. Based on ResNet-DC-101, SAP-DETR achieves 46.9 AP.
arxiv情報
著者 | Yang Liu,Yao Zhang,Yixin Wang,Yang Zhang,Jiang Tian,Zhongchao Shi,Jianping Fan,Zhiqiang He |
発行日 | 2022-11-03 17:20:55+00:00 |
arxivサイト | arxiv_id(pdf) |