Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation

要約

教師なしドメイン アダプテーション (UDA) によるシーン セグメンテーションにより、ソース合成データから取得した知識を現実世界のターゲット データに転送できるようになり、ターゲット ドメインでの手動のピクセル レベルのアノテーションの必要性が大幅に軽減されます。
ドメイン不変特徴の学習を容易にするために、既存の方法では通常、ピクセルをコピーして貼り付けるだけでソース ドメインとターゲット ドメインの両方からのデータを混合します。
このような標準的な方法は、混合レイアウトが現実世界のシナリオにどの程度対応しているかを考慮していないため、通常は最適とは言えません。
現実世界のシナリオには固有のレイアウトがあります。
歩道、建物、空などの意味カテゴリが比較的一貫した深度分布を示し、深度マップ内で明確に区別できることが観察されました。
このような観察に基づいて、深度推定を明示的に活用してカテゴリを混合し、2 つの相補的なタスク、つまりセグメンテーションと深度学習をエンドツーエンドで容易にする深度認識フレームワークを提案します。
特に、このフレームワークには、データ拡張のための深度ガイド付きコンテキスト フィルター (DCF) と、コンテキスト学習のためのクロスタスク エンコーダーが含まれています。
DCF は現実世界のレイアウトをシミュレートし、クロスタスク エンコーダーは 2 つのタスク間の補完機能をさらに適応的に融合します。
さらに、いくつかの公開データセットは深度アノテーションを提供していないことにも注意してください。
したがって、既製の深度推定ネットワークを利用して擬似深度を生成します。
広範な実験により、私たちが提案した方法は、疑似深度であっても、2つの広く使用されているベンチマーク、つまりGTAから都市景観までの77.7 mIoUとSynthiaから都市景観までの69.3 mIoUで競合するパフォーマンスを達成することが示されています。

要約(オリジナル)

Scene segmentation via unsupervised domain adaptation (UDA) enables the transfer of knowledge acquired from source synthetic data to real-world target data, which largely reduces the need for manual pixel-level annotations in the target domain. To facilitate domain-invariant feature learning, existing methods typically mix data from both the source domain and target domain by simply copying and pasting the pixels. Such vanilla methods are usually sub-optimal since they do not take into account how well the mixed layouts correspond to real-world scenarios. Real-world scenarios are with an inherent layout. We observe that semantic categories, such as sidewalks, buildings, and sky, display relatively consistent depth distributions, and could be clearly distinguished in a depth map. Based on such observation, we propose a depth-aware framework to explicitly leverage depth estimation to mix the categories and facilitate the two complementary tasks, i.e., segmentation and depth learning in an end-to-end manner. In particular, the framework contains a Depth-guided Contextual Filter (DCF) forndata augmentation and a cross-task encoder for contextual learning. DCF simulates the real-world layouts, while the cross-task encoder further adaptively fuses the complementing features between two tasks. Besides, it is worth noting that several public datasets do not provide depth annotation. Therefore, we leverage the off-the-shelf depth estimation network to generate the pseudo depth. Extensive experiments show that our proposed methods, even with pseudo depth, achieve competitive performance on two widely-used bench-marks, i.e. 77.7 mIoU on GTA to Cityscapes and 69.3 mIoU on Synthia to Cityscapes.

arxiv情報

著者 Mu Chen,Zhedong Zheng,Yi Yang
発行日 2023-11-21 15:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク