Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation

要約

このホワイトペーパーでは、パノラマセマンティックセグメンテーションについて説明します。これにより、周囲の全体像と高密度ピクセルの理解が全体的に提供されます。
パノラマセグメンテーションは、次の2つの重要な課題のために十分に検討されていません。(1)パノラマ上の画像の歪みとオブジェクトの変形。
(2)パノラマセグメンターをトレーニングするための注釈の欠如。
これらの問題に取り組むために、パノラマセマンティックセグメンテーション(Trans4PASS)アーキテクチャ用のトランスフォーマーを提案します。
まず、歪みの認識を強化するために、変形可能パッチ埋め込み(DPE)および変形可能MLP(DMLP)モジュールを備えたTrans4PASSは、いつでも(適応の前または後)、どこでも(浅いまたは深いレベル)、オブジェクトの変形と画像の歪みを処理できます。
デザイン。
さらに、アップグレードされたTrans4PASS +モデルを紹介します。これは、並列トークンミキシングを備えたDMLPv2を特徴としており、識別キューのモデリングにおける柔軟性と一般化可能性を向上させます。
次に、教師なしドメイン適応のための相互プロトタイプ適応(MPA)戦略を提案します。
第3に、ピンホールからパノラマ(Pin2Pan)への適応とは別に、9,080枚のパノラマ画像を使用して新しいデータセット(SynPASS)を作成し、360 {\ deg}画像で合成から実数(Syn2Real)への適応スキームを探索します。
屋内と屋外のシナリオをカバーする広範な実験が行われ、それぞれがPin2PanおよびSyn2Realレジメンで調査されます。
Trans4PASS +は、4つのドメイン適応型パノラマセマンティックセグメンテーションベンチマークで最先端のパフォーマンスを実現します。
コードはhttps://github.com/jamycheung/Trans4PASSで入手できます。

要約(オリジナル)

In this paper, we address panoramic semantic segmentation, which provides a full-view and dense-pixel understanding of surroundings in a holistic way. Panoramic segmentation is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of annotations for training panoramic segmenters. To tackle these problems, we propose a Transformer for Panoramic Semantic Segmentation (Trans4PASS) architecture. First, to enhance distortion awareness, Trans4PASS, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLP) modules, is capable of handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels) by design. We further introduce the upgraded Trans4PASS+ model, featuring DMLPv2 with parallel token mixing to improve the flexibility and generalizability in modeling discriminative cues. Second, we propose a Mutual Prototypical Adaptation (MPA) strategy for unsupervised domain adaptation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images to explore a Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg} imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.

arxiv情報

著者 Jiaming Zhang,Kailun Yang,Hao Shi,Simon Reiß,Kunyu Peng,Chaoxiang Ma,Haodong Fu,Kaiwei Wang,Rainer Stiefelhagen
発行日 2022-07-27 09:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク