GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama Registration Network

要約

単一のパノラマから大規模で複雑な部屋の完全なレイアウトを推定することは非常に困難であるため、複数の $360^{\circ}$ パノラマから 3D レイアウトを再構築することは最近ますます注目されています。
PSMNet と呼ばれる最先端の方法は、パノラマのペアが与えられたときに部屋のレイアウトと登録を共同で推定する最初の学習ベースのフレームワークを導入します。
ただし、PSMNet は、入力としておおよその (つまり、「ノイズの多い」) 登録に依存しています。
この入力を取得するには、困難な問題である広いベースライン レジストレーションのソリューションが必要です。
この作業では、完全なマルチビュー パノラマ レイアウト推定フレームワークを提示します。このフレームワークは、事前のポーズに依存することなく、パノラマのペアを指定してパノラマ登録とレイアウト推定を共同で学習します。
PSMNet の主な改善点は、新しいジオメトリ認識パノラマ登録ネットワークまたは GPR-Net によるものです。これは、グローバル ピクセル空間ではなく、レイアウト ジオメトリを活用し、レイアウト境界できめ細かい対応を計算することにより、広いベースライン登録問題に効果的に取り組みます。
.
私たちのアーキテクチャは 2 つの部分で構成されています。
まず、2 つのパノラマが与えられた場合、ビジョン トランスフォーマーを採用して、パノラマでサンプリングされた一連の 1D 地平線の特徴を学習します。
これらの 1D ホライズン機能は、個々のレイアウト境界サンプルの深度と、レイアウト境界間の対応マップと共可視性マップをエンコードします。
次に、非線形登録モジュールを利用して、これらの 1D 地平線フィーチャをレイアウト上の対応する 2D 境界点のセットに変換します。
最後に、RANSAC を介して最終的な相対カメラ ポーズを推定し、登録されたレイアウトの和集合を取るだけで完全なレイアウトを取得します。
実験結果は、大規模な屋内パノラマ データセット ZInD でのパノラマ登録とレイアウト推定の両方で、私たちの方法が最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Reconstructing 3D layouts from multiple $360^{\circ}$ panoramas has received increasing attention recently as estimating a complete layout of a large-scale and complex room from a single panorama is very difficult. The state-of-the-art method, called PSMNet, introduces the first learning-based framework that jointly estimates the room layout and registration given a pair of panoramas. However, PSMNet relies on an approximate (i.e., ‘noisy’) registration as input. Obtaining this input requires a solution for wide baseline registration which is a challenging problem. In this work, we present a complete multi-view panoramic layout estimation framework that jointly learns panorama registration and layout estimation given a pair of panoramas without relying on a pose prior. The major improvement over PSMNet comes from a novel Geometry-aware Panorama Registration Network or GPR-Net that effectively tackles the wide baseline registration problem by exploiting the layout geometry and computing fine-grained correspondences on the layout boundaries, instead of the global pixel-space. Our architecture consists of two parts. First, given two panoramas, we adopt a vision transformer to learn a set of 1D horizon features sampled on the panorama. These 1D horizon features encode the depths of individual layout boundary samples and the correspondence and covisibility maps between layout boundaries. We then exploit a non-linear registration module to convert these 1D horizon features into a set of corresponding 2D boundary points on the layout. Finally, we estimate the final relative camera pose via RANSAC and obtain the complete layout simply by taking the union of registered layouts. Experimental results indicate that our method achieves state-of-the-art performance in both panorama registration and layout estimation on a large-scale indoor panorama dataset ZInD.

arxiv情報

著者 Jheng-Wei Su,Chi-Han Peng,Peter Wonka,Hung-Kuo Chu
発行日 2022-10-21 14:26:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク