I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation

要約

教師なし領域適合(UDA)による意味的セグメンテーションは、アノテーション作業から人々を解放する有望なタスクである。しかし、低レベルの画像統計と高レベルのコンテキストにおけるドメインの不一致は、ターゲットドメインに対するセグメンテーション性能を低下させる。この問題に対処するためのキーとなるアイデアは、画像レベルと特徴レベルの両方の適応を共同で行うことである。残念ながら、既存の文献には、UDAタスクに対するそのような統一的なアプローチは存在しない。本論文では、画像レベルと特徴レベルの適応を統合した、セマンティックセグメンテーションのための新しいUDAパイプラインを提案する。具体的には、画像レベルの領域シフトには、グローバル測光アライメントモジュールとグローバルテクスチャアライメントモジュールを提案し、ソースドメインとターゲットドメインの画像を画像レベルの特性の観点からアライメントする。さらに、カテゴリ指向のトリプレットロスによりソースドメインのカテゴリセンターを正則化し、拡張されたターゲットドメインの画像に対してターゲットドメインの一貫性正則化を行う。実験結果は、我々のパイプラインが従来の手法を大幅に上回ることを実証している。一般的にテストされているGTA5$rightarrow$Cityscapesタスクにおいて、Deeplab V3+をバックボーンとして用いた我々の提案手法は、従来のSOTAを8%上回り、mIoUで58.2%を達成しました。

要約(オリジナル)

Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.

arxiv情報

著者 Haoyu Ma,Xiangru Lin,Yizhou Yu
発行日 2023-01-03 15:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク