One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

要約

セマンティック セグメンテーションのための教師なし sim-to-real ドメイン アダプテーション (UDA) は、シミュレートされたデータでトレーニングされたモデルの実際のテスト パフォーマンスを向上させることを目的としています。
ロボット ビジョンや自動運転などの実際のアプリケーションで、手動でデータにラベルを付けるコストを節約できます。
従来のUDAは、多くの場合、適応のためのトレーニング中に利用可能なラベルのない実世界のデータサンプルが豊富にあると想定しています。
しかし、そのような仮定は、収集の難しさとデータの不足のために、実際には常に成り立つとは限りません。
したがって、多数の実際のデータでこの必要性を軽減し、1 つの現実世界のデータ サンプルしか利用できない、教師なしの sim-to-real ドメイン適応 (OSUDA) および一般化 (OSDG) の問題を調査することを目指しています。
.
限られた実際のデータの知識を改善するために、最初にシミュレートされたデータをワンショットの実際のデータで様式化することにより、疑似ターゲットドメインを構築します。
スタイルと空間構造レベルの両方で sim-to-real ドメイン ギャップを軽減し、sim-to-real 適応を促進するために、ドメインを抽出する中間ドメイン ランダム化戦略を備えたクラス認識クロスドメイン トランスフォーマーを使用することをさらに提案します。
-シミュレートされたデータと疑似ターゲット データの両方からの不変の知識。
GTA、SYNTHIA$\rightarrow$Cityscapes、Foggy Cityscapes で 10.87、9.59、13.05、および 15.91 mIoU という大幅な差で最先端の方法を上回り、さまざまなベンチマークで OSUDA と OSDG に対するアプローチの有効性を実証します。
、 それぞれ。

要約(オリジナル)

Unsupervised sim-to-real domain adaptation (UDA) for semantic segmentation aims to improve the real-world test performance of a model trained on simulated data. It can save the cost of manually labeling data in real-world applications such as robot vision and autonomous driving. Traditional UDA often assumes that there are abundant unlabeled real-world data samples available during training for the adaptation. However, such an assumption does not always hold in practice owing to the collection difficulty and the scarcity of the data. Thus, we aim to relieve this need on a large number of real data, and explore the one-shot unsupervised sim-to-real domain adaptation (OSUDA) and generalization (OSDG) problem, where only one real-world data sample is available. To remedy the limited real data knowledge, we first construct the pseudo-target domain by stylizing the simulated data with the one-shot real data. To mitigate the sim-to-real domain gap on both the style and spatial structure level and facilitate the sim-to-real adaptation, we further propose to use class-aware cross-domain transformers with an intermediate domain randomization strategy to extract the domain-invariant knowledge, from both the simulated and pseudo-target data. We demonstrate the effectiveness of our approach for OSUDA and OSDG on different benchmarks, outperforming the state-of-the-art methods by a large margin, 10.87, 9.59, 13.05 and 15.91 mIoU on GTA, SYNTHIA$\rightarrow$Cityscapes, Foggy Cityscapes, respectively.

arxiv情報

著者 Rui Gong,Qin Wang,Dengxin Dai,Luc Van Gool
発行日 2022-12-14 15:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク