Exploring High-quality Target Domain Information for Unsupervised Domain Adaptive Semantic Segmentation

要約

教師なしドメイン アダプティブ (UDA) セマンティック セグメンテーションでは、現在、蒸留ベースの方法がパフォーマンスで優勢です。
ただし、蒸留技術は複雑な多段階のプロセスと多くのトレーニングのトリックを必要とします。
この論文では、高度な蒸留法に匹敵する性能を達成できるシンプルで効果的な方法を提案します。
私たちの核となるアイデアは、境界と機能の観点からターゲット ドメインの情報を完全に探索することです。
まず、グラウンド トゥルース ラベルを使用して高品質のターゲット ドメイン境界を生成するための新しいミックスアップ戦略を提案します。
以前の作品のソース ドメインの境界とは異なり、信頼性の高いターゲット ドメイン領域を選択し、それらをソース ドメインの画像に貼り付けます。
このような戦略は、正しいラベルを使用して、ターゲット ドメイン (ターゲット ドメイン オブジェクト領域のエッジ) 内のオブジェクト境界を生成できます。
その結果、ターゲットドメインの境界情報は、混合されたサンプルで学習することによって効果的にキャプチャできます。
次に、ピクセルレベルおよびプロトタイプレベルのコントラスト学習を含む、ターゲットドメインデータの表現を改善するために、マルチレベルのコントラスト損失を設計します。
提案された 2 つの方法を組み合わせることで、より識別可能な特徴を抽出でき、ターゲット ドメインのハード オブジェクト境界をより適切に処理できます。
一般的に採用されている 2 つのベンチマーク (\textit{i.e.}、GTA5 $\rightarrow$ Cityscapes および SYNTHIA $\rightarrow$ Cityscapes) での実験結果は、私たちの方法が複雑な蒸留方法に匹敵するパフォーマンスを達成することを示しています。
特に、SYNTHIA$\rightarrow$ Cityscapes シナリオの場合、この方法は 16 クラスと 13 クラスで $57.8\%$ mIoU と $64.6\%$ mIoU で最先端のパフォーマンスを達成します。
コードは https://github.com/ljjcoder/EHTDI で入手できます。

要約(オリジナル)

In unsupervised domain adaptive (UDA) semantic segmentation, the distillation based methods are currently dominant in performance. However, the distillation technique requires complicate multi-stage process and many training tricks. In this paper, we propose a simple yet effective method that can achieve competitive performance to the advanced distillation methods. Our core idea is to fully explore the target-domain information from the views of boundaries and features. First, we propose a novel mix-up strategy to generate high-quality target-domain boundaries with ground-truth labels. Different from the source-domain boundaries in previous works, we select the high-confidence target-domain areas and then paste them to the source-domain images. Such a strategy can generate the object boundaries in target domain (edge of target-domain object areas) with the correct labels. Consequently, the boundary information of target domain can be effectively captured by learning on the mixed-up samples. Second, we design a multi-level contrastive loss to improve the representation of target-domain data, including pixel-level and prototype-level contrastive learning. By combining two proposed methods, more discriminative features can be extracted and hard object boundaries can be better addressed for the target domain. The experimental results on two commonly adopted benchmarks (\textit{i.e.}, GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes) show that our method achieves competitive performance to complicated distillation methods. Notably, for the SYNTHIA$\rightarrow$ Cityscapes scenario, our method achieves the state-of-the-art performance with $57.8\%$ mIoU and $64.6\%$ mIoU on 16 classes and 13 classes. Code is available at https://github.com/ljjcoder/EHTDI.

arxiv情報

著者 Junjie Li,Zilei Wang,Yuan Gao,Xiaoming Hu
発行日 2022-08-12 03:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク