DEYO: DETR with YOLO for End-to-End Object Detection

要約

DETR のトレーニング パラダイムは、ImageNet データセットでのバックボーンの事前トレーニングに大きく依存します。
ただし、画像分類タスクと 1 対 1 のマッチング戦略によって提供される監視信号が限られているため、DETR のネックの事前トレーニングが不十分になります。
さらに、トレーニングの初期段階でのマッチングの不安定性により、DETR の最適化目標に不一致が生じます。
これらの問題に対処するために、私たちはステップバイステップトレーニングと呼ばれる革新的なトレーニング方法を考案しました。
具体的には、トレーニングの最初の段階では、1 対多のマッチング戦略で事前トレーニングされた古典的な検出器を使用して、エンドツーエンド検出器のバックボーンとネックを初期化します。
トレーニングの第 2 段階では、エンドツーエンド検出器のバックボーンとネックをフリーズし、デコーダーをゼロからトレーニングする必要がありました。
ステップバイステップのトレーニングを適用することで、純粋な畳み込み構造エンコーダーである DETR with YOLO (DEYO) を利用する初のリアルタイム エンドツーエンド物体検出モデルを導入しました。
DEYO は、補足的なトレーニング データに依存せず、速度と精度の両方で既存のすべてのリアルタイム物体検出器を上回ります。
さらに、包括的な DEYO シリーズは、単一の 8GB RTX 4060 GPU を使用して COCO データセットの第 2 フェーズのトレーニングを完了できるため、トレーニング費用が大幅に削減されます。
ソース コードと事前トレーニングされたモデルは https://github.com/ouyanghaodong/DEYO で入手できます。

要約(オリジナル)

The training paradigm of DETRs is heavily contingent upon pre-training their backbone on the ImageNet dataset. However, the limited supervisory signals provided by the image classification task and one-to-one matching strategy result in an inadequately pre-trained neck for DETRs. Additionally, the instability of matching in the early stages of training engenders inconsistencies in the optimization objectives of DETRs. To address these issues, we have devised an innovative training methodology termed step-by-step training. Specifically, in the first stage of training, we employ a classic detector, pre-trained with a one-to-many matching strategy, to initialize the backbone and neck of the end-to-end detector. In the second stage of training, we froze the backbone and neck of the end-to-end detector, necessitating the training of the decoder from scratch. Through the application of step-by-step training, we have introduced the first real-time end-to-end object detection model that utilizes a purely convolutional structure encoder, DETR with YOLO (DEYO). Without reliance on any supplementary training data, DEYO surpasses all existing real-time object detectors in both speed and accuracy. Moreover, the comprehensive DEYO series can complete its second-phase training on the COCO dataset using a single 8GB RTX 4060 GPU, significantly reducing the training expenditure. Source code and pre-trained models are available at https://github.com/ouyanghaodong/DEYO.

arxiv情報

著者 Haodong Ouyang
発行日 2024-02-26 07:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク