Revisiting DETR Pre-training for Object Detection

要約

COCOオブジェクト検出とセグメンテーションベンチマークにおけるDETRベースのアプローチの顕著な成果に動機づけられ、最近の努力は、凍結されたバックボーンを維持しながら、Transformersの自己教師付き事前学習によって、その性能を向上させることに向けられている。ある研究では、精度の顕著な向上が記録されている。我々の調査では、代表的なアプローチであるDETRegと、$mathcal{H}$-Deformable-DETRのような新しいモデルの文脈における性能評価を深く掘り下げた。残念なことに、DETRegは全データ条件下でロバストなDETRベースのモデルの性能を向上させるには不十分であることが判明した。その根本的な原因を解明するため、我々はCOCOとPASCAL VOCを用いた広範な実験を行い、事前学習データセットの選択や事前学習ターゲット生成の戦略などの要素を探る。対照的に、改良されたボックス予測器とObjects$365$ベンチマークの組み合わせにより、顕著な強化につながるSimple Self-trainingと名付けられた最適化されたアプローチを採用する。これらの努力の集大成として、COCO値セットで$59.3%$の顕著なAPスコアが得られ、事前学習なしの$mathcal{H}$-Deformable-DETR + Swin-Lを$1.4%$上回る。さらに、現代の画像対テキスト(LLaVA)モデルとテキスト対画像(SDXL)モデルを融合して生成された一連の合成事前学習データセットは、物体検出能力を大幅に増幅する。

要約(オリジナル)

Motivated by the remarkable achievements of DETR-based approaches on COCO object detection and segmentation benchmarks, recent endeavors have been directed towards elevating their performance through self-supervised pre-training of Transformers while preserving a frozen backbone. Noteworthy advancements in accuracy have been documented in certain studies. Our investigation delved deeply into a representative approach, DETReg, and its performance assessment in the context of emerging models like $\mathcal{H}$-Deformable-DETR. Regrettably, DETReg proves inadequate in enhancing the performance of robust DETR-based models under full data conditions. To dissect the underlying causes, we conduct extensive experiments on COCO and PASCAL VOC probing elements such as the selection of pre-training datasets and strategies for pre-training target generation. By contrast, we employ an optimized approach named Simple Self-training which leads to marked enhancements through the combination of an improved box predictor and the Objects$365$ benchmark. The culmination of these endeavors results in a remarkable AP score of $59.3\%$ on the COCO val set, outperforming $\mathcal{H}$-Deformable-DETR + Swin-L without pre-training by $1.4\%$. Moreover, a series of synthetic pre-training datasets, generated by merging contemporary image-to-text(LLaVA) and text-to-image (SDXL) models, significantly amplifies object detection capabilities.

arxiv情報

著者 Yan Ma,Weicong Liang,Bohan Chen,Yiduo Hao,Bojian Hou,Xiangyu Yue,Chao Zhang,Yuhui Yuan
発行日 2023-12-01 18:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク