RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild

要約

我々は、任意のオブジェクトの複数の画像からカメラの視点を推測するためのデータ駆動型手法を説明する。このタスクはSfMやSLAMのような古典的な幾何学的パイプラインのコアコンポーネントであり、オブジェクトの再構成やビュー合成に対する現代のニューラルアプローチ(例えばNeRF)にとって重要な前処理要件として機能するものである。疎な視点に対してうまく機能しない既存の対応関係駆動型手法とは対照的に、我々はカメラの視点を推定するためのトップダウン予測に基づくアプローチを提案する。我々の重要な技術的洞察は、カメラの相対的回転に関する分布を表現するためのエネルギーベースの定式化を用いることであり、これにより、物体の対称性やビューから生じる複数のカメラモードを明示的に表現することができる。これらの相対的な予測を利用して、我々は複数の画像から一貫したカメラ回転のセットを共同で推定する。本アプローチは、疎な画像を用いた最新のSfMおよびSLAM手法に比べ、既知および未知のカテゴリにおいて優れた性能を発揮することが示された。さらに、我々の確率的アプローチは、相対的な姿勢を直接回帰する方法よりも大幅に優れており、マルチモダリティをモデル化することがコヒーレントな関節再構成に重要であることを示唆している。本システムは、多視点データセットからの実環境再構成への足がかりとなることを実証しています。コードとビデオを含むプロジェクトページは、https://jasonyzhang.com/relpose で見ることができます。

要約(オリジナル)

We describe a data-driven method for inferring the camera viewpoints given multiple images of an arbitrary object. This task is a core component of classic geometric pipelines such as SfM and SLAM, and also serves as a vital pre-processing requirement for contemporary neural approaches (e.g. NeRF) to object reconstruction and view synthesis. In contrast to existing correspondence-driven methods that do not perform well given sparse views, we propose a top-down prediction based approach for estimating camera viewpoints. Our key technical insight is the use of an energy-based formulation for representing distributions over relative camera rotations, thus allowing us to explicitly represent multiple camera modes arising from object symmetries or views. Leveraging these relative predictions, we jointly estimate a consistent set of camera rotations from multiple images. We show that our approach outperforms state-of-the-art SfM and SLAM methods given sparse images on both seen and unseen categories. Further, our probabilistic approach significantly outperforms directly regressing relative poses, suggesting that modeling multimodality is important for coherent joint reconstruction. We demonstrate that our system can be a stepping stone toward in-the-wild reconstruction from multi-view datasets. The project page with code and videos can be found at https://jasonyzhang.com/relpose.

arxiv情報

著者 Jason Y. Zhang,Deva Ramanan,Shubham Tulsiani
発行日 2022-08-11 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク