MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation

要約

教師なし領域適合(UDA)では、ソースデータ(合成データなど)で学習したモデルを、ターゲットデータ(実世界など)のアノテーションにアクセスすることなく適合させる。従来のUDA手法の多くは、ターゲットドメイン上で類似した外観を持つクラスに対して、わずかな外観の違いを学習するためのグランドトゥルースが利用できないため、苦労している。この問題に対処するため、我々は、ロバストな視覚認識のための追加の手がかりとして、ターゲットドメインの空間的文脈関係を学習することにより、UDAを強化するマスク画像整合性(MIC)モジュールを提案する。MICは、ランダムなパッチが隠されているマスクされたターゲット画像の予測値と、指数移動平均教師によって完全な画像に基づいて生成される擬似ラベルの間の整合性を強制する。整合性の損失を最小化するために、ネットワークは文脈からマスクされた領域の予測を推論することを学習する必要がある。MICはそのシンプルで普遍的なコンセプトにより、画像分類、意味分割、物体検出などの異なる視覚認識タスクにわたる様々なUDA手法に統合することが可能である。MICは、合成から実写、昼間から夜間、晴天から悪天候のUDAの異なる認識タスクにおいて、最先端の性能を大幅に向上させることができる。例えば、MICはGTA-to-CityscapesとVisDA-2017でそれぞれ75.9mIoUと92.8%という前例のないUDA性能を達成し、これは従来の最先端技術に対して+2.1%と+3.0%のポイント向上に相当します。実装は https://github.com/lhoyer/MIC で公開しています。

要約(オリジナル)

In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.

arxiv情報

著者 Lukas Hoyer,Dengxin Dai,Haoran Wang,Luc Van Gool
発行日 2022-12-02 17:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク