Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

要約

領域適応型セグメンテーションでは、対象領域の高品質な擬似ラベルを生成し、それに基づいてセグメンテーションを再トレーニングすることが試みられている。この自己学習パラダイムの下で、いくつかの競争的手法は潜在空間情報に着目している。潜在空間情報は、意味クラスの特徴量の中心(別名、プロトタイプ)を確立し、この中心からの距離によって擬似ラベル候補を決定するものである。本論文では、潜在空間にはより多くの活用すべき情報が含まれていると考え、それを活用するための一歩を踏み出した。まず、従来の手法のように、ターゲット擬似ラベルを決定するためにソース領域のプロトタイプを単に用いるのではなく、ターゲット領域のプロトタイプを双方向に生成し、適応が困難または妨害される可能性があるソース特徴を劣化させる。次に、既存の手法では、各カテゴリを単一かつ等方的なプロトタイプとしてモデル化し、特徴量分布の分散を無視しているため、類似カテゴリの混同を引き起こす可能性がある。この問題に対処するため、我々は、各カテゴリをガウス混合モデルにより複数の異方的なプロトタイプで表現し、ソースドメインの事実上の分布に適合させ、その確率密度に基づいてターゲットサンプルの尤度を推定することを提案する。本手法をGTA5->CityscapesタスクおよびSynthia->Cityscapesタスクに適用し、平均IoUでそれぞれ61.2および62.8を達成し、他の競合自己学習手法を大幅に上回った。また、「トラック」と「バス」のようなカテゴリ間の混同が激しいカテゴリにおいても、本手法はそれぞれ56.4と68.8を達成し、本手法の有効性をさらに実証している。

要約(オリジナル)

A thriving trend for domain adaptive segmentation endeavors to generate the high-quality pseudo labels for target domain and retrain the segmentor on them. Under this self-training paradigm, some competitive methods have sought to the latent-space information, which establishes the feature centroids (a.k.a prototypes) of the semantic classes and determines the pseudo label candidates by their distances from these centroids. In this paper, we argue that the latent space contains more information to be exploited thus taking one step further to capitalize on it. Firstly, instead of merely using the source-domain prototypes to determine the target pseudo labels as most of the traditional methods do, we bidirectionally produce the target-domain prototypes to degrade those source features which might be too hard or disturbed for the adaptation. Secondly, existing attempts simply model each category as a single and isotropic prototype while ignoring the variance of the feature distribution, which could lead to the confusion of similar categories. To cope with this issue, we propose to represent each category with multiple and anisotropic prototypes via Gaussian Mixture Model, in order to fit the de facto distribution of source domain and estimate the likelihood of target samples based on the probability density. We apply our method on GTA5->Cityscapes and Synthia->Cityscapes tasks and achieve 61.2 and 62.8 respectively in terms of mean IoU, substantially outperforming other competitive self-training methods. Noticeably, in some categories which severely suffer from the categorical confusion such as ‘truck’ and ‘bus’, our method achieves 56.4 and 68.8 respectively, which further demonstrates the effectiveness of our design.

arxiv情報

著者 Yulei Lu,Yawei Luo,Li Zhang,Zheyang Li,Yi Yang,Jun Xiao
発行日 2022-08-04 08:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク