Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation for Panoramic Semantic Segmentation

要約

最近、教師なしドメイン適応 (UDA) を介して、ラベル付きのピンホール画像ドメインからラベルなしのパノラマ画像ドメインに知識を転送する取り組みが行われています。
その目的は、正距円筒図法 (ERP) の不均一に分布したピクセルによるスタイルの差異と歪みの問題によって引き起こされるドメイン ギャップに取り組むことです。
これまでの研究は通常、特別に設計されたマルチブランチ ネットワーク アーキテクチャを使用した幾何学的事前分布に基づいた知識の伝達に焦点を当てていました。
その結果、かなりの計算コストが発生し、その一方で、ピクセル間の歪みの変動により一般化能力が大きく妨げられます。
この論文では、ERP のピクセルの近傍領域では実際に歪みが少ないことがわかりました。
直感的に、パノラマセマンティックセグメンテーションの歪み問題に効果的に対処できる新しい UDA フレームワークを提案します。
それに比べて、私たちの方法はよりシンプルで実装が簡単で、計算効率も優れています。
具体的には、幾何学的制約を使用せずに隣接するピクセル分布をキャプチャする歪み認識アテンション (DA) を提案します。
さらに、メモリ バンクを使用して特徴表現を繰り返し更新するクラスごとの特徴集約 (CFA) モジュールを提案します。
したがって、2 つのドメイン間の特徴の類似性を一貫して最適化できます。
広範な実験により、私たちの方法はパラメーターを 80% 大幅に削減しながら、新しい最先端のパフォーマンスを達成できることが示されました。

要約(オリジナル)

Endeavors have been recently made to transfer knowledge from the labeled pinhole image domain to the unlabeled panoramic image domain via Unsupervised Domain Adaptation (UDA). The aim is to tackle the domain gaps caused by the style disparities and distortion problem from the non-uniformly distributed pixels of equirectangular projection (ERP). Previous works typically focus on transferring knowledge based on geometric priors with specially designed multi-branch network architectures. As a result, considerable computational costs are induced, and meanwhile, their generalization abilities are profoundly hindered by the variation of distortion among pixels. In this paper, we find that the pixels’ neighborhood regions of the ERP indeed introduce less distortion. Intuitively, we propose a novel UDA framework that can effectively address the distortion problems for panoramic semantic segmentation. In comparison, our method is simpler, easier to implement, and more computationally efficient. Specifically, we propose distortion-aware attention (DA) capturing the neighboring pixel distribution without using any geometric constraints. Moreover, we propose a class-wise feature aggregation (CFA) module to iteratively update the feature representations with a memory bank. As such, the feature similarity between two domains can be consistently optimized. Extensive experiments show that our method achieves new state-of-the-art performance while remarkably reducing 80% parameters.

arxiv情報

著者 Xu Zheng,Tianbo Pan,Yunhao Luo,Lin Wang
発行日 2023-08-10 10:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク