SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

要約

パノラマの歪みは、360 度の深度推定において重大な課題を引き起こし、特に北極と南極で顕著です。
既存の手法は、歪みを除去するために二重投影融合戦略を採用するか、グローバル構造を捕捉するために長距離依存関係をモデル化するかのいずれかであり、その結果、構造が不明瞭になったり、局所的な認識が不十分になったりする可能性があります。
この論文では、球面幾何事前分布をビジョン トランスフォーマに統合する革新的なステップを用いて、上記の問題に対処する SGFormer という名前の球面ジオメトリ トランスフォーマを提案します。
この目的を達成するために、変換デコーダを、デコード中に球状構造の完全性を維持するよう努める球状の以前のデコーダ (SPDecoder と呼ばれる) に再ターゲットします。
具体的には、双極再投影、円回転、および曲線ローカル埋め込みを利用して、それぞれ等歪み、連続性、および表面距離の球面特性を保存します。
さらに、さまざまな解像度で空間構造を補償するための、クエリベースのグローバル条件付き位置埋め込みを提案します。
これにより、空間位置の全体的な認識が向上するだけでなく、さまざまなパッチにわたる奥行き構造も鮮明になります。
最後に、一般的なベンチマークで広範な実験を実施し、最先端のソリューションに対する当社の優位性を実証します。

要約(オリジナル)

Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.

arxiv情報

著者 Junsong Zhang,Zisong Chen,Chunyu Lin,Lang Nie,Zhijie Shen,Junda Huang,Yao Zhao
発行日 2024-04-23 12:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク