Rethinking Unsupervised Domain Adaptation for Semantic Segmentation

要約

教師なしドメイン適応 (UDA) は、ラベルのないデータのみを使用して、1 つのドメイン (ソースと呼ばれる) でトレーニングされたモデルを新しいドメイン (ターゲットと呼ばれる) に適応させます。
アノテーションのコストが高いため、研究者はセマンティック セグメンテーション用の多くの UDA 手法を開発してきましたが、これらの手法では、ターゲット ドメインでラベル付きサンプルが利用できないことを前提としています。
私たちは 2 つの理由から、この仮定の現実性に疑問を抱いています。
まず、UDA メソッドでモデルをトレーニングした後、デプロイ前に何らかの方法でモデルを検証する必要があります。
第 2 に、UDA メソッドには、決定する必要のあるハイパーパラメータが少なくともいくつかあります。
これらに対する最も確実な解決策は、検証データ、つまりラベル付けされたターゲットドメインの一定量のサンプルを使用してモデルを評価することです。
UDA の基本的な前提に関するこの疑問は、データ中心の観点から UDA を再考することにつながります。
具体的には、最小限のレベルのラベル付きデータにアクセスできることを前提としています。
次に、既存の UDA メソッドの適切なハイパーパラメータを見つけるにはどれくらい必要かを尋ねます。
次に、同じモデルの教師ありトレーニング (微調整など) に同じデータを使用した場合はどうなるかを検討します。
私たちは、人気のあるシナリオ、{GTA5、SYNTHIA}$\rightarrow$Cityscapes を使ってこれらの質問に答える実験を実施しました。
i) 適切なハイパーパラメータを選択するには、一部の UDA メソッドでは少数のラベル付き画像のみが必要ですが、他のメソッドでは大量のラベル付き画像が必要であることがわかりました。
ii) 単純な微調整は驚くほどうまく機能します。
ラベル付き画像が数十枚しか利用できない場合、多くの UDA メソッドよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Unsupervised domain adaptation (UDA) adapts a model trained on one domain (called source) to a novel domain (called target) using only unlabeled data. Due to its high annotation cost, researchers have developed many UDA methods for semantic segmentation, which assume no labeled sample is available in the target domain. We question the practicality of this assumption for two reasons. First, after training a model with a UDA method, we must somehow verify the model before deployment. Second, UDA methods have at least a few hyper-parameters that need to be determined. The surest solution to these is to evaluate the model using validation data, i.e., a certain amount of labeled target-domain samples. This question about the basic assumption of UDA leads us to rethink UDA from a data-centric point of view. Specifically, we assume we have access to a minimum level of labeled data. Then, we ask how much is necessary to find good hyper-parameters of existing UDA methods. We then consider what if we use the same data for supervised training of the same model, e.g., finetuning. We conducted experiments to answer these questions with popular scenarios, {GTA5, SYNTHIA}$\rightarrow$Cityscapes. We found that i) choosing good hyper-parameters needs only a few labeled images for some UDA methods whereas a lot more for others; and ii) simple finetuning works surprisingly well; it outperforms many UDA methods if only several dozens of labeled images are available.

arxiv情報

著者 Zhijie Wang,Masanori Suganuma,Takayuki Okatani
発行日 2024-01-22 12:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク