要約
一連の画像または単眼ビデオからのジョイント カメラのポーズと密なジオメトリの推定は、計算の複雑さと固有の視覚的な曖昧さのため、依然として困難な問題です。
最も高密度の増分再構成システムは、画像ピクセルを直接操作し、マルチビュー ジオメトリ キューを使用して 3D 位置を解決します。
このようなピクセルレベルのアプローチは、多視点の一貫性の曖昧さや違反(例えば、テクスチャのない表面や鏡面によって引き起こされる)に悩まされます。
私たちは、SuperPrimitive と呼ばれる新しい画像表現でこの問題に対処します。
スーパープリミティブは、画像を意味的に相関する局所領域に分割し、それらを推定された表面法線方向で強化することによって取得されます。どちらも最先端の単一画像ニューラル ネットワークによって予測されます。
これにより、SuperPrimitive ごとのローカル ジオメトリ推定が提供され、その相対位置はマルチビューの観察に基づいて調整されます。
深さの補完、動きからの少数ビュー構造、および単眼の密な視覚オドメトリという 3 つの 3D 再構成タスクに取り組むことで、新しい表現の多用途性を実証します。
要約(オリジナル)
Joint camera pose and dense geometry estimation from a set of images or a monocular video remains a challenging problem due to its computational complexity and inherent visual ambiguities. Most dense incremental reconstruction systems operate directly on image pixels and solve for their 3D positions using multi-view geometry cues. Such pixel-level approaches suffer from ambiguities or violations of multi-view consistency (e.g. caused by textureless or specular surfaces). We address this issue with a new image representation which we call a SuperPrimitive. SuperPrimitives are obtained by splitting images into semantically correlated local regions and enhancing them with estimated surface normal directions, both of which are predicted by state-of-the-art single image neural networks. This provides a local geometry estimate per SuperPrimitive, while their relative positions are adjusted based on multi-view observations. We demonstrate the versatility of our new representation by addressing three 3D reconstruction tasks: depth completion, few-view structure from motion, and monocular dense visual odometry.
arxiv情報
著者 | Kirill Mazur,Gwangbin Bae,Andrew J. Davison |
発行日 | 2024-04-17 16:13:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google