Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining


我々は、エンコーダ・デコーダの事前学習と微調整を行う強力な物体検出器を発表する。我々の手法はGroup DETR v2と呼ばれ、ビジョン変換エンコーダViT-Huge~cite{dosovitskiy2020image}、DETR variant DINO~cite{zhang2022dino} 、効率的なDETR学習法Group DETR~cite{chen2022group} から構成されています。学習過程は、ImageNet-1K上でのViT-Hugeエンコーダの自己教師付き事前学習と微調整、Object365上での検出器の事前学習、そして最後にCOCO上での微調整である。Group DETR v2はCOCO test-devで$textbf{64.5}$ mAPを達成し、COCO leaderboardで新しいSoTAを確立しています


We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard


著者 Qiang Chen,Jian Wang,Chuchu Han,Shan Zhang,Zexian Li,Xiaokang Chen,Jiahui Chen,Xiaodi Wang,Shuming Han,Gang Zhang,Haocheng Feng,Kun Yao,Junyu Han,Errui Ding,Jingdong Wang
発行日 2022-11-07 14:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク