Generic Objects as Pose Probes for Few-Shot View Synthesis

要約

NeRF や 3D ガウシアンを含むラディアンス フィールドは、高忠実度のレンダリングとシーンの再構築において大きな可能性を示しますが、入力として相当な数のポーズ画像が必要です。
COLMAP はポーズを推定するための前処理によく使用されますが、効果的に動作するには多数の特徴の一致が必要であり、まばらな特徴、画像間の大きなベースライン、または限られた数の入力画像によって特徴付けられるシーンでは困難を伴います。
私たちは、3 ~ 6 枚の未ポーズのシーン画像のみを使用して、少数ビューの NeRF 再構成に取り組むことを目指しています。
従来の方法ではキャリブレーション ボードを使用することがよくありますが、画像では一般的ではありません。
私たちは、画像と現実の両方に共通して見られる日常の物体を「ポーズプローブ」として利用するという新しいアイデアを提案します。
プローブ オブジェクトは SAM によって自動的にセグメント化され、その形状は立方体から初期化されます。
デュアル ブランチ ボリューム レンダリングの最適化 (オブジェクト NeRF とシーン NeRF) を適用して、ポーズの最適化を制約し、ジオメトリを共同で調整します。
具体的には、2 つのビューのオブジェクトのポーズが、最初に SDF 表現での PnP マッチングによって推定され、初期ポーズとして機能します。
PnP マッチングは、少数の機能のみを必要とするため、機能が少ないシーンに適しています。
追加のビューが段階的に組み込まれ、前のビューからポーズを調整します。
実験では、PoseProbe は複数のデータセットにわたる姿勢推定と新しいビュー合成の両方で最先端のパフォーマンスを達成しました。
特に、COLMAP が困難なビュー数が少ないシーンやベースラインが大きいシーンで、その有効性を実証します。
アブレーションでは、シーン内でさまざまなオブジェクトを使用すると、同等のパフォーマンスが得られます。

要約(オリジナル)

Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as ‘pose probes’. The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance.

arxiv情報

著者 Zhirui Gao,Renjiao Yi,Chenyang Zhu,Ke Zhuang,Wei Chen,Kai Xu
発行日 2024-08-29 16:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク