D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement

要約

DETR モデルの境界ボックス回帰タスクを再定義することで優れた位置特定精度を実現する、強力なリアルタイム物体検出器である D-FINE を紹介します。
D-FINE は、2 つの主要なコンポーネント、きめ細かい分布調整 (FDR) とグローバル最適局在化自己蒸留 (GO-LSD) で構成されます。
FDR は、回帰プロセスを固定座標の予測から確率分布を反復的に調整することに変換し、位置特定の精度を大幅に向上させるきめの細かい中間表現を提供します。
GO-LSD は、自己蒸留によって位置特定の知識を洗練された分布から浅い層に転送すると同時に、より深い層の残差予測タスクを簡素化する双方向の最適化戦略です。
さらに、D-FINE には、計算集約型のモジュールと操作に軽量の最適化が組み込まれており、速度と精度のより良いバランスを実現します。
具体的には、D-FINE-L / X は、NVIDIA T4 GPU 上の 124 / 78 FPS で COCO データセット上で 54.0% / 55.8% の AP を達成します。
Objects365 で事前トレーニングすると、D-FINE-L / X は 57.1% / 59.3% の AP を達成し、既存のすべてのリアルタイム検出器を上回ります。
さらに、私たちの方法は、無視できる追加パラメータとトレーニングコストで、広範囲の DETR モデルのパフォーマンスを最大 5.3% AP まで大幅に向上させます。
私たちのコードと事前トレーニングされたモデル: https://github.com/Peterande/D-FINE。

要約(オリジナル)

We introduce D-FINE, a powerful real-time object detector that achieves outstanding localization precision by redefining the bounding box regression task in DETR models. D-FINE comprises two key components: Fine-grained Distribution Refinement (FDR) and Global Optimal Localization Self-Distillation (GO-LSD). FDR transforms the regression process from predicting fixed coordinates to iteratively refining probability distributions, providing a fine-grained intermediate representation that significantly enhances localization accuracy. GO-LSD is a bidirectional optimization strategy that transfers localization knowledge from refined distributions to shallower layers through self-distillation, while also simplifying the residual prediction tasks for deeper layers. Additionally, D-FINE incorporates lightweight optimizations in computationally intensive modules and operations, achieving a better balance between speed and accuracy. Specifically, D-FINE-L / X achieves 54.0% / 55.8% AP on the COCO dataset at 124 / 78 FPS on an NVIDIA T4 GPU. When pretrained on Objects365, D-FINE-L / X attains 57.1% / 59.3% AP, surpassing all existing real-time detectors. Furthermore, our method significantly enhances the performance of a wide range of DETR models by up to 5.3% AP with negligible extra parameters and training costs. Our code and pretrained models: https://github.com/Peterande/D-FINE.

arxiv情報

著者 Yansong Peng,Hebei Li,Peixi Wu,Yueyi Zhang,Xiaoyan Sun,Feng Wu
発行日 2024-10-17 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク