要約
単一画像の 3D オブジェクトの再構成の問題を研究します。
最近の研究は、回帰ベースのモデリングと生成モデリングの 2 つの方向に分かれています。
回帰手法は可視サーフェスを効率的に推論しますが、遮蔽された領域では困難を伴います。
生成法は、分布をモデル化することで不確実な領域をより適切に処理しますが、計算コストが高く、生成は目に見える表面とずれることがよくあります。
このホワイトペーパーでは、両方の方向の長所を最大限に活用することを目的とした新しい 2 段階のアプローチである SPAR3D を紹介します。
SPAR3D の最初のステージでは、サンプリング速度が速い軽量の点拡散モデルを使用して、まばらな 3D 点群を生成します。
第 2 段階では、サンプリングされた点群と入力画像の両方を使用して、非常に詳細なメッシュを作成します。
当社の 2 段階設計により、高い計算効率と優れた出力忠実度を維持しながら、不適切な単一画像 3D タスクの確率的モデリングが可能になります。
点群を中間表現として使用すると、さらに対話型のユーザー編集が可能になります。
多様なデータセットで評価された SPAR3D は、0.7 秒の推論速度で、これまでの最先端の方法よりも優れたパフォーマンスを示しています。
コードとモデルを含むプロジェクト ページ: https://spar3d.github.io
要約(オリジナル)
We study the problem of single-image 3D object reconstruction. Recent works have diverged into two directions: regression-based modeling and generative modeling. Regression methods efficiently infer visible surfaces, but struggle with occluded regions. Generative methods handle uncertain regions better by modeling distributions, but are computationally expensive and the generation is often misaligned with visible surfaces. In this paper, we present SPAR3D, a novel two-stage approach aiming to take the best of both directions. The first stage of SPAR3D generates sparse 3D point clouds using a lightweight point diffusion model, which has a fast sampling speed. The second stage uses both the sampled point cloud and the input image to create highly detailed meshes. Our two-stage design enables probabilistic modeling of the ill-posed single-image 3D task while maintaining high computational efficiency and great output fidelity. Using point clouds as an intermediate representation further allows for interactive user edits. Evaluated on diverse datasets, SPAR3D demonstrates superior performance over previous state-of-the-art methods, at an inference speed of 0.7 seconds. Project page with code and model: https://spar3d.github.io
arxiv情報
著者 | Zixuan Huang,Mark Boss,Aaryaman Vasishta,James M. Rehg,Varun Jampani |
発行日 | 2025-01-08 18:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google