MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation

要約

教師なしドメイン適応 (UDA) では、ソース データ (合成データなど) でトレーニングされたモデルが、ターゲット アノテーションにアクセスせずにターゲット データ (実世界など) に適応されます。
以前のほとんどの UDA メソッドは、わずかな外観の違いを学習するためのグラウンド トゥルースを利用できないため、ターゲット ドメインで同様の視覚的外観を持つクラスに苦労していました。
この問題に対処するために、堅牢な視覚認識のための追加の手がかりとしてターゲットドメインの空間コンテキスト関係を学習することにより、UDA を強化するマスク画像整合性 (MIC) モジュールを提案します。
MIC は、ランダム パッチが差し控えられるマスクされたターゲット イメージの予測と、指数移動平均教師によって完全なイメージに基づいて生成される疑似ラベルとの間の一貫性を強化します。
一貫性の損失を最小限に抑えるために、ネットワークはマスクされた領域の予測をコンテキストから推測することを学習する必要があります。
シンプルで普遍的な概念により、MIC は、画像分類、セマンティック セグメンテーション、オブジェクト検出など、さまざまな視覚認識タスクにわたるさまざまな UDA メソッドに統合できます。
MIC は、合成から現実、昼から夜間、晴天から悪天候の UDA のさまざまな認識タスク全体で、最先端のパフォーマンスを大幅に向上させます。
たとえば、MIC は、GTA-to-Cityscapes と VisDA-2017 でそれぞれ 75.9 mIoU と 92.8% という前例のない UDA パフォーマンスを達成しています。これは、以前の最新技術に比べて +2.1 および +3.0 パーセント ポイントの改善に相当します。
実装は https://github.com/lhoyer/MIC で入手できます。

要約(オリジナル)

In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.

arxiv情報

著者 Lukas Hoyer,Dengxin Dai,Haoran Wang,Luc Van Gool
発行日 2023-03-24 15:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク