要約
セマンティック セグメンテーション モデルをトレーニングするための実世界の注釈の収集は、コストのかかるプロセスです。
教師なしドメイン適応 (UDA) は、合成データなどのよりアクセスしやすいデータを使用して、アノテーションを必要とせずにモデルをトレーニングして現実世界の画像に適応させる方法を研究することで、この問題を解決しようとします。
最近のUDAメソッドは、学生と教師のネットワークを使用してピクセル単位の分類損失をトレーニングすることにより、自己学習を適用します。
この論文では、ネットワークの出力の要素間のピクセル間の関係をモデル化することにより、半教師あり UDA に整合性正則化項を追加することを提案します。
提案された整合性正則化項を最先端の DAFormer フレームワークに適用し、GTA5 to Cityscapes ベンチマークでの mIoU19 のパフォーマンスを 0.8 向上させ、SYNTHIA to Cityscapes ベンチマークでの mIou16 のパフォーマンスを 1.2 向上させることにより、提案された整合性正則化項の有効性を実証します。
要約(オリジナル)
Collection of real world annotations for training semantic segmentation models is an expensive process. Unsupervised domain adaptation (UDA) tries to solve this problem by studying how more accessible data such as synthetic data can be used to train and adapt models to real world images without requiring their annotations. Recent UDA methods applies self-learning by training on pixel-wise classification loss using a student and teacher network. In this paper, we propose the addition of a consistency regularization term to semi-supervised UDA by modelling the inter-pixel relationship between elements in networks’ output. We demonstrate the effectiveness of the proposed consistency regularization term by applying it to the state-of-the-art DAFormer framework and improving mIoU19 performance on the GTA5 to Cityscapes benchmark by 0.8 and mIou16 performance on the SYNTHIA to Cityscapes benchmark by 1.2.
arxiv情報
著者 | Kian Boon Koh,Basura Fernando |
発行日 | 2022-08-23 17:07:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google