要約
多視点画像からの表面再構成は困難な作業であり、多くの場合、解決策には重複の多い多数のサンプル画像が必要となります。
私たちは人間の足の場合の少数ビュー再構成手法の開発を目指しています。
この課題を解決するには、最終的な 3D オブジェクトに慎重に融合する前に、RGB 画像から豊富な幾何学的手がかりを抽出する必要があります。
私たちの FOUND アプローチは、次の 4 つの主な貢献によってこれに取り組みます。(i) SynFoot は、グラウンド トゥルースのサーフェス法線とキーポイントと組み合わせた、50,000 枚のフォトリアリスティックな足の画像の合成データセットです。
(ii) 合成データセットでトレーニングされた不確実性を認識した表面法線予測子。
(iii) 生成足モデルを一連の画像に適合させるための最適化スキーム。
(iv) キャリブレーションされた画像と高解像度のグラウンド トゥルース ジオメトリのベンチマーク データセット。
私たちの通常の予測子は、実際の画像上ですべての既製の同等の予測子を大幅に上回り、私たちの最適化スキームは、特にビュー数が少ない設定で最先端の写真測量パイプラインを上回っていることを示します。
私たちは合成データセットとベースライン 3D スキャンを研究コミュニティにリリースします。
要約(オリジナル)
Surface reconstruction from multi-view images is a challenging task, with solutions often requiring a large number of sampled images with high overlap. We seek to develop a method for few-view reconstruction, for the case of the human foot. To solve this task, we must extract rich geometric cues from RGB images, before carefully fusing them into a final 3D object. Our FOUND approach tackles this, with 4 main contributions: (i) SynFoot, a synthetic dataset of 50,000 photorealistic foot images, paired with ground truth surface normals and keypoints; (ii) an uncertainty-aware surface normal predictor trained on our synthetic dataset; (iii) an optimization scheme for fitting a generative foot model to a series of images; and (iv) a benchmark dataset of calibrated images and high resolution ground truth geometry. We show that our normal predictor outperforms all off-the-shelf equivalents significantly on real images, and our optimization scheme outperforms state-of-the-art photogrammetry pipelines, especially for a few-view setting. We release our synthetic dataset and baseline 3D scans to the research community.
arxiv情報
著者 | Oliver Boyne,Gwangbin Bae,James Charles,Roberto Cipolla |
発行日 | 2024-08-22 15:20:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google