Revisiting DETR Pre-training for Object Detection

要約

DETR ベースのアプローチが COCO 検出とセグメンテーションのベンチマークで新記録を樹立したことに動機づけられ、最近の多くの取り組みでは、バックボーンを凍結したまま自己監視方式で Transformer を事前トレーニングすることで DETR ベースのアプローチをさらに改善する方法への関心が高まっています。

一部の研究では、精度が大幅に向上したとすでに報告されています。
この論文では、彼らの実験方法論を詳しく見て、彼らのアプローチが $\mathcal{H}$-Deformable-DETR などのごく最近の最先端技術に対して依然として有効であるかどうかを確認します。
COCO オブジェクト検出タスクについて徹底的な実験を実施し、事前トレーニング データセット、位置特定、分類ターゲット生成スキームの選択の影響を研究します。
残念ながら、DETReg などの以前の代表的な自己教師ありアプローチでは、完全なデータ領域での強力な DETR ベースのアプローチのパフォーマンスを向上させることができないことがわかりました。
私たちはその理由をさらに分析し、より正確なボックス予測子と Objects$365$ ベンチマークを組み合わせるだけで、追跡実験の結果を大幅に改善できることがわかりました。
COCO val セットで AP=$59.3\%$ という強力な物体検出結果を達成することで、アプローチの有効性を実証します。これは $\mathcal{H}$-Deformable-DETR + Swin-L を +$1.4\%$ 上回ります。
最後に、非常に最近の画像からテキストへのキャプション モデル (LLaVA) とテキストから画像への生成モデル (SDXL) を組み合わせて、一連の合成事前トレーニング データセットを生成します。
特に、これらの合成データセットでの事前トレーニングは、物体検出パフォーマンスの顕著な向上につながります。
将来的には、合成事前トレーニング データセットの将来の拡張を通じて大きな利点が期待されます。

要約(オリジナル)

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as $\mathcal{H}$-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects$365$ benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=$59.3\%$ on COCO val set, which surpasses $\mathcal{H}$-Deformable-DETR + Swin-L by +$1.4\%$. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

arxiv情報

著者 Yan Ma,Weicong Liang,Yiduo Hao,Bohan Chen,Xiangyu Yue,Chao Zhang,Yuhui Yuan
発行日 2023-08-02 17:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク