要約
タイトル: セマンティックセグメンテーションのための拡張ベースのドメイン汎化
要約:
– DNN(Deep Neural Networks)の汎化不足を解決するために、UDA(Unsupervised Domain Adaptation)とDG(domain generalization)という2つの研究領域がある。
– UDAは未ラベルの対象画像にアクセスできるが、ドメイン一般化は対象データを必要とせず、ソースドメインから一般化された特徴を学ぶことを目的としている。
– 画像スタイルのランダム化または拡張は、対象ドメインにアクセスできなくてもネットワーク汎化を改善するための一般的な手法である。
– 多くの複雑な方法が提案されているが、シンプルな画像拡張によるドメイン外汎化の可能性を無視しているため、本研究では、ぼかし、ノイズ、色のランダム化などのシンプルなルールベースの画像拡張のイン・アウトドメイン汎化能力を系統的に研究する。
– 実験デザインの完全階乗計画に基づいて、拡張機能とその相互作用の系統的な統計評価を提供する。
– 結果として、多数の異なる拡張機能の組み合わせが、単一の拡張機能よりも優れていることを確認するための一般的な科学的標準を確認する実験が期待される。
– 加えて、DAFormerという最近のビジョントランスフォーマーアーキテクチャを雇用することで、新たなベンチマークを超えて、最高の前処理作業であることを示す。
要約(オリジナル)
Unsupervised Domain Adaptation (UDA) and domain generalization (DG) are two research areas that aim to tackle the lack of generalization of Deep Neural Networks (DNNs) towards unseen domains. While UDA methods have access to unlabeled target images, domain generalization does not involve any target data and only learns generalized features from a source domain. Image-style randomization or augmentation is a popular approach to improve network generalization without access to the target domain. Complex methods are often proposed that disregard the potential of simple image augmentations for out-of-domain generalization. For this reason, we systematically study the in- and out-of-domain generalization capabilities of simple, rule-based image augmentations like blur, noise, color jitter and many more. Based on a full factorial design of experiment design we provide a systematic statistical evaluation of augmentations and their interactions. Our analysis provides both, expected and unexpected, outcomes. Expected, because our experiments confirm the common scientific standard that combination of multiple different augmentations out-performs single augmentations. Unexpected, because combined augmentations perform competitive to state-of-the-art domain generalization approaches, while being significantly simpler and without training overhead. On the challenging synthetic-to-real domain shift between Synthia and Cityscapes we reach 39.5% mIoU compared to 40.9% mIoU of the best previous work. When additionally employing the recent vision transformer architecture DAFormer we outperform these benchmarks with a performance of 44.2% mIoU
arxiv情報
著者 | Manuel Schwonberg,Fadoua El Bouazati,Nico M. Schmidt,Hanno Gottschalk |
発行日 | 2023-04-24 14:26:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI