Generic Objects as Pose Probes for Few-shot View Synthesis

要約

NeRFや3Dガウシアンを含む輝度場は、忠実度の高いレンダリングやシーン再構成において大きな可能性を示すが、入力として相当数のポーズ画像を必要とする。COLMAPは、ポーズを推定するための前処理によく使用されるが、効果的に動作させるためには多数の特徴量のマッチングが必要であり、疎な特徴量、画像間の大きなベースライン、または限られた入力画像数を特徴とするシーンに苦戦する。我々は、わずか3~6枚のポーズなしシーン画像を用いて、少数ビューNeRF再構成に取り組むことを目指している。従来の手法ではキャリブレーションボードを用いることが多いが、画像では一般的ではない。我々は、画像と実生活の両方で一般的に見られる日常的な物体を「ポーズプローブ」として利用するという新しいアイデアを提案する。プローブオブジェクトはSAMによって自動的にセグメンテーションされ、その形状は立方体から初期化される。デュアルブランチボリュームレンダリング最適化(オブジェクトNeRFとシーンNeRF)を適用して、ポーズ最適化を制約し、形状を共同で洗練する。具体的には、まず2つのビューのオブジェクトのポーズをSDF表現におけるPnPマッチングによって推定し、これを初期ポーズとする。PnPマッチングは数個の特徴しか必要としないため、特徴が乏しいシーンに適している。追加ビューは、先行ビューからのポーズを改良するために、段階的に組み込まれる。実験では、PoseProbeは複数のデータセットにおいて、ポーズ推定と新規ビュー合成の両方で最先端の性能を達成した。特に、COLMAPが苦手とする、ビュー数が少ないシーンやベースラインが大きいシーンにおいて、その有効性を実証する。アブレーションでは、シーン内の異なるオブジェクトを使っても同等の性能が得られる。我々のプロジェクトページは\href{https://zhirui-gao.github.io/PoseProbe.github.io/}{このhttpsのURL}。

要約(オリジナル)

Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as ‘pose probes’. The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance. Our project page is available at: \href{https://zhirui-gao.github.io/PoseProbe.github.io/}{this https URL}

arxiv情報

著者 Zhirui Gao,Renjiao Yi,Chenyang Zhu,Ke Zhuang,Wei Chen,Kai Xu
発行日 2025-01-03 15:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク