MTTrans: Cross-Domain Object Detection with Mean-Teacher Transformer

要約

最近、エンドツーエンドのオブジェクト検出パイプラインである DEtection TRansformer (DETR) が有望なパフォーマンスを達成しました。
ただし、大規模なラベル付きデータが必要であり、特にターゲット ドメインでラベル付きデータが利用できない場合は、ドメイン シフトが発生します。
この問題を解決するために、平均教師フレームワーク MTTrans に基づくエンドツーエンドのクロスドメイン検出トランスフォーマーを提案します。これは、オブジェクト検出トレーニングでラベル付けされていないターゲットドメインデータを完全に活用し、疑似ラベルを介してドメイン間で知識を転送できます。
さらに、変形可能な DETR のクロススケール自己注意メカニズムを利用して、平均教師フレームワークによって生成された疑似ラベルを改善するための包括的なマルチレベル機能アライメントを提案します。
イメージとオブジェクトの特徴は、ドメイン クエリベースの特徴アライメント (DQFA)、バイレベル グラフベースのプロトタイプ アライメント (BGPA)、およびトークン単位のイメージ特徴アライメント (TIFA) を使用して、ローカル、グローバル、およびインスタンス レベルでアライメントされます。
一方、擬似ラベル付けされ、平均教師フレームワークによるオブジェクト検出トレーニングに使用できるラベル付けされていないターゲットドメインデータは、より優れた特徴抽出とアライメントにつながる可能性があります。
したがって、平均教師フレームワークと包括的なマルチレベル機能の調整は、トランスフォーマーのアーキテクチャに基づいて反復的かつ相互に最適化できます。
広範な実験により、提案された方法が 3 つのドメイン適応シナリオで最先端のパフォーマンスを達成することが実証されました。特に、Sim10k から都市景観へのシナリオの結果は、52.6 mAP から 57.9 mAP に著しく改善されました。
コードが公開されます。

要約(オリジナル)

Recently, DEtection TRansformer (DETR), an end-to-end object detection pipeline, has achieved promising performance. However, it requires large-scale labeled data and suffers from domain shift, especially when no labeled data is available in the target domain. To solve this problem, we propose an end-to-end cross-domain detection Transformer based on the mean teacher framework, MTTrans, which can fully exploit unlabeled target domain data in object detection training and transfer knowledge between domains via pseudo labels. We further propose the comprehensive multi-level feature alignment to improve the pseudo labels generated by the mean teacher framework taking advantage of the cross-scale self-attention mechanism in Deformable DETR. Image and object features are aligned at the local, global, and instance levels with domain query-based feature alignment (DQFA), bi-level graph-based prototype alignment (BGPA), and token-wise image feature alignment (TIFA). On the other hand, the unlabeled target domain data pseudo-labeled and available for the object detection training by the mean teacher framework can lead to better feature extraction and alignment. Thus, the mean teacher framework and the comprehensive multi-level feature alignment can be optimized iteratively and mutually based on the architecture of Transformers. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance in three domain adaptation scenarios, especially the result of Sim10k to Cityscapes scenario is remarkably improved from 52.6 mAP to 57.9 mAP. Code will be released.

arxiv情報

著者 Jinze Yu,Jiaming Liu,Xiaobao Wei,Haoyi Zhou,Yohei Nakata,Denis Gudovskiy,Tomoyuki Okuno,Jianxin Li,Kurt Keutzer,Shanghang Zhang
発行日 2022-08-16 09:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク