Semantics, Distortion, and Style Matter: Towards Source-free UDA for Panoramic Segmentation

要約

この論文は、ピンホール画像でトレーニングされたモデル (つまり、ソース) とラベルのないパノラマ画像 (つまり、ターゲット) のみを前提とした、ピンホールからパノラマへのセマンティック セグメンテーションのためのソースフリーの教師なしドメイン アダプテーション (SFUDA) という、興味深いが困難な問題に取り組んでいます。
)。
意味上の不一致、スタイルの不一致、およびパノラマ画像の避けられない歪みのため、この問題に取り組むのは簡単ではありません。
この目的を達成するために、歪みが少ない正距円筒図法 (TP) を利用し、固定 FoV で正距円筒図法 (ERP) をスリットしてピンホール画像を模倣する新しい方法を提案します。
どちらの投影も、ソース モデルから知識を抽出するのに効果的であることが示されています。
ただし、ソース ドメインとターゲット ドメイン間の明確な射影の不一致により、直接的な知識の伝達が妨げられます。
したがって、適応のために抽出された知識からパノラマプロトタイプを統合するパノラマプロトタイプ適応モジュール(PPAM)を提案します。
次に、予測とプロトタイプの両方に損失制約を課し、機能レベルでクロスデュアル アテンション モジュール (CDAM) を提案して、ドメインと投影全体で空間特性とチャネル特性をより適切に調整します。
知識の抽出プロセスと転送プロセスは両方とも同期して更新され、最高のパフォーマンスが得られます。
屋外および屋内のシナリオを含む、合成ベンチマークと現実世界のベンチマークに関する広範な実験により、私たちの手法がピンホールからパノラマへの適応に関して以前の SFUDA 手法よりも大幅に優れたパフォーマンスを達成することが実証されました。

要約(オリジナル)

This paper addresses an interesting yet challenging problem — source-free unsupervised domain adaptation (SFUDA) for pinhole-to-panoramic semantic segmentation — given only a pinhole image-trained model (i.e., source) and unlabeled panoramic images (i.e., target). Tackling this problem is nontrivial due to the semantic mismatches, style discrepancies, and inevitable distortion of panoramic images. To this end, we propose a novel method that utilizes Tangent Projection (TP) as it has less distortion and meanwhile slits the equirectangular projection (ERP) with a fixed FoV to mimic the pinhole images. Both projections are shown effective in extracting knowledge from the source model. However, the distinct projection discrepancies between source and target domains impede the direct knowledge transfer; thus, we propose a panoramic prototype adaptation module (PPAM) to integrate panoramic prototypes from the extracted knowledge for adaptation. We then impose the loss constraints on both predictions and prototypes and propose a cross-dual attention module (CDAM) at the feature level to better align the spatial and channel characteristics across the domains and projections. Both knowledge extraction and transfer processes are synchronously updated to reach the best performance. Extensive experiments on the synthetic and real-world benchmarks, including outdoor and indoor scenarios, demonstrate that our method achieves significantly better performance than prior SFUDA methods for pinhole-to-panoramic adaptation.

arxiv情報

著者 Xu Zheng,Pengyuan Zhou,Athanasios V. Vasilakos,Lin Wang
発行日 2024-03-22 15:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク