Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective

要約

単眼の 360 画像からの奥行き推定は、3D 環境全体の認識にとって重要です。
ただし、360 画像には固有の歪みと広い視野 (FoV) があり、この作業には大きな課題が生じます。
この目的を達成するために、既存の主流ソリューションは通常、追加のパースペクティブベースの 360 度表現 (\textit{例}、Cubemap) を導入して、効果的な特徴抽出を実現します。
それにもかかわらず、導入された表現に関係なく、その後の深度推定のために最終的には正距円筒図法 (ERP) 形式に統一する必要があり、必然的に厄介な歪みが再び導入されます。
この研究では、上記の課題に対処するために、指向性歪みを考慮した Gabor Fusion フレームワーク (PGFuse) を提案します。
まず、周波数領域でテクスチャを分析するガボール フィルターを導入します。これにより、受容野が拡張され、奥行きの手がかりが強化されます。
再導入された歪みに対処するために、カスタマイズされた歪み認識ガボール フィルター (PanoGabor フィルター) を生成する線形緯度認識歪み表現方法を設計します。
さらに、提案された PanoGabor フィルターを統合して他の表現を ERP 形式に統合し、効果的で歪みのない機能を提供する、チャネルごとおよび空間ごとの一方向融合モジュール (CS-UFM) を設計します。
ガボール変換の方向感度を考慮して、この感度を安定させるために球面勾配制約を導入します。
3 つの一般的な屋内 360 ベンチマークの実験結果は、提案された PGFuse が既存の最先端ソリューションよりも優れていることを示しています。
コードは承認されると利用可能になります。

要約(オリジナル)

Depth estimation from a monocular 360 image is important to the perception of the entire 3D environment. However, the inherent distortion and large field of view (FoV) in 360 images pose great challenges for this task. To this end, existing mainstream solutions typically introduce additional perspective-based 360 representations (\textit{e.g.}, Cubemap) to achieve effective feature extraction. Nevertheless, regardless of the introduced representations, they eventually need to be unified into the equirectangular projection (ERP) format for the subsequent depth estimation, which inevitably reintroduces the troublesome distortions. In this work, we propose an oriented distortion-aware Gabor Fusion framework (PGFuse) to address the above challenges. First, we introduce Gabor filters that analyze texture in the frequency domain, thereby extending the receptive fields and enhancing depth cues. To address the reintroduced distortions, we design a linear latitude-aware distortion representation method to generate customized, distortion-aware Gabor filters (PanoGabor filters). Furthermore, we design a channel-wise and spatial-wise unidirectional fusion module (CS-UFM) that integrates the proposed PanoGabor filters to unify other representations into the ERP format, delivering effective and distortion-free features. Considering the orientation sensitivity of the Gabor transform, we introduce a spherical gradient constraint to stabilize this sensitivity. Experimental results on three popular indoor 360 benchmarks demonstrate the superiority of the proposed PGFuse to existing state-of-the-art solutions. Code can be available upon acceptance.

arxiv情報

著者 Zhijie Shen,Chunyu Lin,Lang Nie,Kang Liao
発行日 2024-08-30 13:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク