要約
特にセマンティック セグメンテーションのようにピクセル レベルでラベルが必要な場合、ラベリングは高価でエラーが発生しやすいタスクであるため、ドメインの適応は非常に重要です。
したがって、データが豊富でラベルが正確な合成ドメインでニューラル ネットワークをトレーニングできるようにしたいと考えています。
ただし、これらのモデルは、ドメイン外の画像ではパフォーマンスが低下することがよくあります。
入力のシフトを軽減するために、イメージからイメージへのアプローチを使用できます。
それにもかかわらず、展開のドメインと合成トレーニング ドメインを橋渡しする標準的なイメージからイメージへのアプローチは、下流のタスクに焦点を当てておらず、目視検査レベルにのみ焦点を当てています。
したがって、画像から画像へのドメイン適応アプローチでGANの「タスク認識」バージョンを提案します。
ラベル付けされた少量のグラウンド トゥルース データを使用して、合成データでトレーニングされたセマンティック セグメンテーション ネットワーク (合成ドメイン エキスパート) に適した入力画像への画像から画像への変換をガイドします。
この作業の主な貢献は、1) 合成セマンティック セグメンテーション エキスパートの適応を控えながら、ダウンストリーム タスク認識 CycleGAN をトレーニングすることによる、セマンティック セグメンテーションのためのモジュラー半教師付きドメイン適応方法です。2) この方法が複雑なドメイン適応タスクに適用できることの実証。
3) ゼロからネットワークを使用することにより、偏りの少ないドメイン ギャップ分析。
分類タスクとセマンティック セグメンテーションでメソッドを評価します。
私たちの実験では、70 (10%) のグラウンド トゥルース イメージのみを使用した分類タスクで、CycleGAN (標準的なイメージからイメージへのアプローチ) よりも 7% 高い精度で、この方法が優れていることが示されています。
セマンティック セグメンテーションでは、トレーニング中に 14 のグラウンド トゥルース画像のみを使用して、Cityscapes 評価データセットの和集合よりも平均交差で約 4 ~ 7 パーセント ポイントの改善を示すことができます。
要約(オリジナル)
Domain adaptation is of huge interest as labeling is an expensive and error-prone task, especially when labels are needed on pixel-level like in semantic segmentation. Therefore, one would like to be able to train neural networks on synthetic domains, where data is abundant and labels are precise. However, these models often perform poorly on out-of-domain images. To mitigate the shift in the input, image-to-image approaches can be used. Nevertheless, standard image-to-image approaches that bridge the domain of deployment with the synthetic training domain do not focus on the downstream task but only on the visual inspection level. We therefore propose a ‘task aware’ version of a GAN in an image-to-image domain adaptation approach. With the help of a small amount of labeled ground truth data, we guide the image-to-image translation to a more suitable input image for a semantic segmentation network trained on synthetic data (synthetic-domain expert). The main contributions of this work are 1) a modular semi-supervised domain adaptation method for semantic segmentation by training a downstream task aware CycleGAN while refraining from adapting the synthetic semantic segmentation expert 2) the demonstration that the method is applicable to complex domain adaptation tasks and 3) a less biased domain gap analysis by using from scratch networks. We evaluate our method on a classification task as well as on semantic segmentation. Our experiments demonstrate that our method outperforms CycleGAN – a standard image-to-image approach – by 7 percent points in accuracy in a classification task using only 70 (10%) ground truth images. For semantic segmentation we can show an improvement of about 4 to 7 percent points in mean Intersection over union on the Cityscapes evaluation dataset with only 14 ground truth images during training.
arxiv情報
著者 | Annika Mütze,Matthias Rottmann,Hanno Gottschalk |
発行日 | 2022-08-18 13:13:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google