Cameras as Rays: Pose Estimation via Ray Diffusion

要約

カメラのポーズの推定は 3D 再構築の基本的なタスクですが、まばらなビュー (10 未満) を考慮すると依然として困難です。
カメラの外部要素のグローバルなパラメータ化のトップダウン予測を追求する既存のアプローチとは対照的に、カメラを光線の束として扱うカメラポーズの分散表現を提案します。
この表現により、空間画像の特徴との緊密な結合が可能になり、ポーズの精度が向上します。
私たちは、この表現がセットレベルのレベル変換器に自然に適していることを観察し、画像パッチを対応する光線にマッピングする回帰ベースのアプローチを開発しました。
スパースビューのポーズ推論に固有の不確実性を捉えるために、このアプローチを適応させて、パフォーマンスを向上させながらもっともらしいモードをサンプリングできるノイズ除去拡散モデルを学習します。
私たちが提案する手法は、回帰ベースと拡散ベースの両方で、CO3D でのカメラの姿勢推定における最先端のパフォーマンスを実証しながら、目に見えないオブジェクト カテゴリや自然界のキャプチャに一般化します。

要約(オリジナル)

Estimating camera poses is a fundamental task for 3D reconstruction and remains challenging given sparse views (<10). In contrast to existing approaches that pursue top-down prediction of global parametrizations of camera extrinsics, we propose a distributed representation of camera pose that treats a camera as a bundle of rays. This representation allows for a tight coupling with spatial image features improving pose precision. We observe that this representation is naturally suited for set-level level transformers and develop a regression-based approach that maps image patches to corresponding rays. To capture the inherent uncertainties in sparse-view pose inference, we adapt this approach to learn a denoising diffusion model which allows us to sample plausible modes while improving performance. Our proposed methods, both regression- and diffusion-based, demonstrate state-of-the-art performance on camera pose estimation on CO3D while generalizing to unseen object categories and in-the-wild captures.

arxiv情報

著者 Jason Y. Zhang,Amy Lin,Moneish Kumar,Tzu-Hsuan Yang,Deva Ramanan,Shubham Tulsiani
発行日 2024-02-22 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク