要約
ビデオ セマンティック セグメンテーションは、ビデオ表現学習の極めて重要な側面です。
ただし、ドメインの大幅なシフトにより、ビデオ セマンティック セグメンテーションのラベル付きソース ドメインとラベルなしターゲット ドメイン全体にわたる不変の時空間特徴を効果的に学習することが困難になります。
この課題を解決するために、我々は、ドメイン適応型ビデオセマンティックセグメンテーションのための新しい DA-STC 手法を提案します。これには、ドメインの一貫した学習を促進する、双方向マルチレベル時空間融合モジュールとカテゴリ認識時空間特徴アライメントモジュールが組み込まれています。
不変の特徴。
まず、画像シーケンス レベルと浅い特徴レベルで双方向の時空間融合を実行し、融合された 2 つの中間ビデオ ドメインを構築します。
これにより、ビデオ セマンティック セグメンテーション モデルは、ドメイン固有のコンテキストの影響を受ける共有パッチ シーケンスの時空間的特徴を一貫して学習し、それによってソース ドメインとターゲット ドメイン間の特徴ギャップを軽減します。
第二に、時空間特徴の一貫性を促進し、ターゲットドメインへの適応を容易にするカテゴリ認識特徴調整モジュールを提案します。
具体的には、各カテゴリのドメイン固有の深い特徴を時空間次元に沿って適応的に集約し、クロスドメインのクラス内特徴の調整とクラス間の特徴分離を達成するためにさらに制約されます。
広範な実験により、複数の困難なベンチマークで最先端の mIOU を達成する私たちの方法の有効性が実証されています。
さらに、提案した DA-STC を画像ドメインに拡張し、ドメイン適応型セマンティック セグメンテーションに対しても優れたパフォーマンスを発揮します。
ソース コードとモデルは \url{https://github.com/ZHE-SAPI/DA-STC} で入手可能になります。
要約(オリジナル)
Video semantic segmentation is a pivotal aspect of video representation learning. However, significant domain shifts present a challenge in effectively learning invariant spatio-temporal features across the labeled source domain and unlabeled target domain for video semantic segmentation. To solve the challenge, we propose a novel DA-STC method for domain adaptive video semantic segmentation, which incorporates a bidirectional multi-level spatio-temporal fusion module and a category-aware spatio-temporal feature alignment module to facilitate consistent learning for domain-invariant features. Firstly, we perform bidirectional spatio-temporal fusion at the image sequence level and shallow feature level, leading to the construction of two fused intermediate video domains. This prompts the video semantic segmentation model to consistently learn spatio-temporal features of shared patch sequences which are influenced by domain-specific contexts, thereby mitigating the feature gap between the source and target domain. Secondly, we propose a category-aware feature alignment module to promote the consistency of spatio-temporal features, facilitating adaptation to the target domain. Specifically, we adaptively aggregate the domain-specific deep features of each category along spatio-temporal dimensions, which are further constrained to achieve cross-domain intra-class feature alignment and inter-class feature separation. Extensive experiments demonstrate the effectiveness of our method, which achieves state-of-the-art mIOUs on multiple challenging benchmarks. Furthermore, we extend the proposed DA-STC to the image domain, where it also exhibits superior performance for domain adaptive semantic segmentation. The source code and models will be made available at \url{https://github.com/ZHE-SAPI/DA-STC}.
arxiv情報
著者 | Zhe Zhang,Gaochang Wu,Jing Zhang,Chunhua Shen,Dacheng Tao,Tianyou Chai |
発行日 | 2023-11-22 09:18:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google