Unified Domain Adaptive Semantic Segmentation

要約

監視なしドメイン適応型セマンティック セグメンテーション (UDA-SS) は、ラベル付きソース ドメインからラベルなしターゲット ドメインに監視を移すことを目的としています。
既存の UDA-SS 作品の大部分は通常画像を考慮していますが、最近の試みは時間的次元をモデル化することでビデオに取り組むことにもさらに拡張されています。
この 2 つの研究分野は、根底にあるドメイン分布の変化を克服するという大きな課題を共有していますが、それらの研究はほぼ独立しているため、洞察が断片化され、全体的な理解が欠如し、アイデアの相互受粉の機会が失われています。
この断片化により手法の統一が妨げられ、画像とビデオのドメイン間での冗長な作業や最適とは言えない知識の伝達が発生します。
この見解に基づいて、私たちはビデオと画像のシナリオ全体で UDA-SS の研究を統合し、より包括的な理解、相乗的な進歩、効率的な知識の共有を可能にすることを提唱します。
そのために、私たちは一般的なデータ拡張の観点から統一された UDA-SS を探求し、統一的な概念フレームワークとして機能し、一般化の向上とアイデアの相互受粉の可能性を可能にし、最終的にはこの分野の全体的な進歩と実際的な影響に貢献します。
研究の。
具体的には、特徴空間内でドメイン内およびドメイン間を混合するための 4 方向パスを通じて、異なる点属性と特徴の不一致に取り組むことを特徴とする Quad-Directional Mixup (QuadMix) 手法を提案します。
ビデオの時間的シフトに対処するために、空間的および時間的次元にわたるオプティカル フロー ガイドによる特徴集約を組み込んで、きめ細かいドメインの調整を実現します。
広範な実験により、私たちの手法は 4 つの困難な UDA-SS ベンチマークで最先端の研究よりも大幅に優れていることがわかりました。
私たちのソース コードとモデルは \url{https://github.com/ZHE-SAPI/UDASS} でリリースされます。

要約(オリジナル)

Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) aims to transfer the supervision from a labeled source domain to an unlabeled target domain. The majority of existing UDA-SS works typically consider images whilst recent attempts have extended further to tackle videos by modeling the temporal dimension. Although the two lines of research share the major challenges — overcoming the underlying domain distribution shift, their studies are largely independent, resulting in fragmented insights, a lack of holistic understanding, and missed opportunities for cross-pollination of ideas. This fragmentation prevents the unification of methods, leading to redundant efforts and suboptimal knowledge transfer across image and video domains. Under this observation, we advocate unifying the study of UDA-SS across video and image scenarios, enabling a more comprehensive understanding, synergistic advancements, and efficient knowledge sharing. To that end, we explore the unified UDA-SS from a general data augmentation perspective, serving as a unifying conceptual framework, enabling improved generalization, and potential for cross-pollination of ideas, ultimately contributing to the overall progress and practical impact of this field of research. Specifically, we propose a Quad-directional Mixup (QuadMix) method, characterized by tackling distinct point attributes and feature inconsistencies through four-directional paths for intra- and inter-domain mixing in a feature space. To deal with temporal shifts with videos, we incorporate optical flow-guided feature aggregation across spatial and temporal dimensions for fine-grained domain alignment. Extensive experiments show that our method outperforms the state-of-the-art works by large margins on four challenging UDA-SS benchmarks. Our source code and models will be released at \url{https://github.com/ZHE-SAPI/UDASS}.

arxiv情報

著者 Zhe Zhang,Gaochang Wu,Jing Zhang,Xiatian Zhu,Dacheng Tao,Tianyou Chai
発行日 2024-09-12 15:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク