Cross Domain Object Detection via Multi-Granularity Confidence Alignment based Mean Teacher

要約

クロスドメインオブジェクト検出は、アノテーション付きソースドメインから知識を転送することによって、ラベルのないターゲットドメインのオブジェクト検出器を学習します。
Mean Teacher によって有望な結果が得られましたが、相互学習のボトルネックである疑似ラベル付けについては、さらに検討する必要があります。
この研究では、カテゴリ レベルの過信、インスタンス レベルのタスクの信頼の不一致、画像レベルの信頼の焦点のずれなど、予測の信頼度のずれがトレーニング プロセスでのノイズの多い疑似ラベルの挿入につながり、次善のパフォーマンスをもたらすことを発見しました。
ターゲットドメイン上で。
この問題に取り組むために、クロスドメインオブジェクト検出のための多粒度信頼度整合平均教師(MGCAMT)と呼ばれる新しい一般的なフレームワークを提案します。これは、カテゴリレベル、インスタンスレベル、および画像レベルにわたる信頼度の不整合を同時に軽減し、高品質の疑似監視を取得します。
教師と生徒のより良い学習のために。
具体的には、カテゴリ レベルで信頼性と精度を調整するために、証拠深層学習 (EDL) に基づいてカテゴリの不確実性をモデル化し、不確実性を意識した選択戦略によってカテゴリの不正確なラベルをフィルタリングするための分類信頼性調整 (CCA) を提案します。
さらに、分類と位置特定の間のインスタンスレベルの不整合を軽減するために、2 つのタスク ブランチ間の相互作用を強化し、各分類特徴が回帰に最適な特徴を適応的に特定できるようにするタスク コンフィデンス アライメント (TCA) を設計します。
最後に、擬似ラベル学習の別の方法を採用した画像フォーカシング信頼性アライメント (FCA) を開発します。つまり、ターゲット画像内の全体的な情報に集中するために、ラベル割り当てなしの教師あり学習に Mean Teacher ネットワークからの元の出力を使用します。
これら 3 つの手順は、協調学習の観点から相互に利点をもたらします。

要約(オリジナル)

Cross domain object detection learns an object detector for an unlabeled target domain by transferring knowledge from an annotated source domain. Promising results have been achieved via Mean Teacher, however, pseudo labeling which is the bottleneck of mutual learning remains to be further explored. In this study, we find that confidence misalignment of the predictions, including category-level overconfidence, instance-level task confidence inconsistency, and image-level confidence misfocusing, leading to the injection of noisy pseudo label in the training process, will bring suboptimal performance on the target domain. To tackle this issue, we present a novel general framework termed Multi-Granularity Confidence Alignment Mean Teacher (MGCAMT) for cross domain object detection, which alleviates confidence misalignment across category-, instance-, and image-levels simultaneously to obtain high quality pseudo supervision for better teacher-student learning. Specifically, to align confidence with accuracy at category level, we propose Classification Confidence Alignment (CCA) to model category uncertainty based on Evidential Deep Learning (EDL) and filter out the category incorrect labels via an uncertainty-aware selection strategy. Furthermore, to mitigate the instance-level misalignment between classification and localization, we design Task Confidence Alignment (TCA) to enhance the interaction between the two task branches and allow each classification feature to adaptively locate the optimal feature for the regression. Finally, we develop imagery Focusing Confidence Alignment (FCA) adopting another way of pseudo label learning, i.e., we use the original outputs from the Mean Teacher network for supervised learning without label assignment to concentrate on holistic information in the target image. These three procedures benefit from each other from a cooperative learning perspective.

arxiv情報

著者 Jiangming Chen,Li Liu,Wanxia Deng,Zhen Liu,Yu Liu,Yingmei Wei,Yongxiang Liu
発行日 2024-07-10 15:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク