SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

要約

パノラマの歪みは、特に北極と南極で顕著な360の深度推定で大きな課題をもたらします。
既存の方法は、歪みを除去するためのバイプロジェクション融合戦略を採用するか、長距離依存関係をモデル化してグローバルな構造をキャプチャします。
この論文では、SGFormerという名前の球状のジオメトリトランスを提案して、球形の幾何学的プレアを視覚変圧器に統合するための革新的なステップを備えた上記の問題に対処します。
この目的のために、トランスデコーダーを球形の事前デコーダー(SPDecoderと呼ぶ)にリターゲットします。これは、デコード中の球状構造の完全性を支持しようとしています。
具体的には、それぞれ双極性再投影、円形回転、および局所埋め込み曲線を活用して、それぞれ等距離、連続性、および表面距離の球形特性を維持します。
さらに、さまざまな解像度で空間構造を補償するために、クエリベースのグローバル条件付き位置埋め込みを提示します。
空間的位置のグローバルな認識を高めるだけでなく、異なるパッチ全体の深さ構造を研ぎます。
最後に、人気のあるベンチマークで広範な実験を実施し、最先端のソリューションに対する優位性を示しています。

要約(オリジナル)

Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.

arxiv情報

著者 Junsong Zhang,Zisong Chen,Chunyu Lin,Lang Nie,Zhijie Shen,Kang Liao,Junda Huang,Yao Zhao
発行日 2025-02-25 15:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク