Cameras as Rays: Pose Estimation via Ray Diffusion

要約

カメラポーズの推定は、3D再構成の基本的なタスクであるが、スパースにサンプリングされたビュー(<10)では依然として困難である。カメラ外挿の大域的パラメトリゼーションをトップダウンで予測する既存のアプローチとは対照的に、我々はカメラを光線の束として扱うカメラポーズの分散表現を提案する。この表現により、空間画像特徴との緊密な結合が可能となり、ポーズ精度が向上する。この表現が集合レベル変換器に自然に適していることを観察し、画像パッチを対応する光線にマッピングする回帰ベースのアプローチを開発する。スパースビューのポーズ推定に内在する不確実性を捕捉するために、このアプローチをノイズ除去拡散モデルの学習に適応させ、性能を向上させながら、もっともらしいモードをサンプリングすることを可能にする。我々の提案する方法は、回帰ベースと拡散ベースの両方で、CO3D上のカメラポーズ推定において最先端の性能を示すと同時に、未見のオブジェクトカテゴリや野生のキャプチャにも一般化する。

要約(オリジナル)

Estimating camera poses is a fundamental task for 3D reconstruction and remains challenging given sparsely sampled views (<10). In contrast to existing approaches that pursue top-down prediction of global parametrizations of camera extrinsics, we propose a distributed representation of camera pose that treats a camera as a bundle of rays. This representation allows for a tight coupling with spatial image features improving pose precision. We observe that this representation is naturally suited for set-level transformers and develop a regression-based approach that maps image patches to corresponding rays. To capture the inherent uncertainties in sparse-view pose inference, we adapt this approach to learn a denoising diffusion model which allows us to sample plausible modes while improving performance. Our proposed methods, both regression- and diffusion-based, demonstrate state-of-the-art performance on camera pose estimation on CO3D while generalizing to unseen object categories and in-the-wild captures.

arxiv情報

著者 Jason Y. Zhang,Amy Lin,Moneish Kumar,Tzu-Hsuan Yang,Deva Ramanan,Shubham Tulsiani
発行日 2024-04-04 16:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク