Domain-invariant Prototypes for Semantic Segmentation

要約

ディープ ラーニングはセマンティック セグメンテーションのパフォーマンスを大幅に向上させましたが、その成功はトレーニング用の大量の注釈付きデータの可用性に依存しています。
したがって、ラベル付けされたソースドメインからラベル付けされていないターゲットドメインに意味知識を移すことに焦点を当てたドメイン適応セマンティックセグメンテーションに多くの努力が注がれてきました。
既存の自己トレーニング方法は、通常、複数回のトレーニングを必要としますが、敵対的トレーニングに基づく別の一般的なフレームワークは、ハイパーパラメーターに敏感であることが知られています。
このホワイト ペーパーでは、ドメイン適応セマンティック セグメンテーションのためのドメイン不変プロトタイプを学習する、トレーニングが容易なフレームワークを紹介します。
特に、ドメイン適応は、大量の目に見えるデータから学習した知識を使用して、いくつかのタイプの目に見えないデータを認識することを目的とするという点で、少数ショット学習と共通の特徴を共有することを示しています。
したがって、ドメイン適応と少数ショット学習のための統一されたフレームワークを提案します。
コアとなるアイデアは、少数ショットの注釈付きターゲット画像から抽出されたクラス プロトタイプを使用して、ソース画像とターゲット画像の両方のピクセルを分類することです。
私たちの方法は、1 段階のトレーニングのみを含み、大規模な注釈なしのターゲット画像でトレーニングする必要はありません。
さらに、私たちの方法は、ドメイン適応と少数ショット学習の両方のバリアントに拡張できます。
GTA5からCityscapesへ、およびSYNTHIAからCityscapesへの適応に関する実験は、私たちの方法が最新技術に匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Deep Learning has greatly advanced the performance of semantic segmentation, however, its success relies on the availability of large amounts of annotated data for training. Hence, many efforts have been devoted to domain adaptive semantic segmentation that focuses on transferring semantic knowledge from a labeled source domain to an unlabeled target domain. Existing self-training methods typically require multiple rounds of training, while another popular framework based on adversarial training is known to be sensitive to hyper-parameters. In this paper, we present an easy-to-train framework that learns domain-invariant prototypes for domain adaptive semantic segmentation. In particular, we show that domain adaptation shares a common character with few-shot learning in that both aim to recognize some types of unseen data with knowledge learned from large amounts of seen data. Thus, we propose a unified framework for domain adaptation and few-shot learning. The core idea is to use the class prototypes extracted from few-shot annotated target images to classify pixels of both source images and target images. Our method involves only one-stage training and does not need to be trained on large-scale un-annotated target images. Moreover, our method can be extended to variants of both domain adaptation and few-shot learning. Experiments on adapting GTA5-to-Cityscapes and SYNTHIA-to-Cityscapes show that our method achieves competitive performance to state-of-the-art.

arxiv情報

著者 Zhengeng Yang,Hongshan Yu,Wei Sun,Li-Cheng,Ajmal Mian
発行日 2022-08-12 02:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク