Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models

要約

単一の RGB 画像から本物のような 3D 人間を生成することは、ジオメトリ、高品質のテクスチャ、およびありそうな目に見えない部分の正確なモデリングを必要とするため、コンピュータ ビジョンにおいて依然として困難な作業です。
既存の方法では、通常、3D 生成にマルチビュー拡散モデルが使用されますが、一貫性のないビューの問題に直面することが多く、高品質の 3D 人物生成が妨げられます。
これに対処するために、ビデオ拡散モデルを使用して単一の RGB 画像から 3D 人間を生成する新しい方法である Human-VDM を提案します。
Human-VDM は、ガウス スプラッティングを使用して 3D 人間を生成するための時間的に一貫したビューを提供します。
これは、ビュー一貫性のある人間のビデオ拡散モジュール、ビデオ拡張モジュール、ガウス スプラッティング モジュールの 3 つのモジュールで構成されています。
まず、単一の画像が人物ビデオ拡散モジュールに入力され、一貫した人物ビデオが生成されます。
次に、ビデオ拡張モジュールは超解像度とビデオ補間を適用して、生成されたビデオのテクスチャと幾何学的滑らかさを強化します。
最後に、3D Human Gaussian Splatting モジュールは、これらの高解像度で一貫したビューの画像の指導の下で、本物のような人間を学習します。
実験では、Human-VDM が 1 枚の画像から高品質の 3D 人間を生成し、生成の質と量の両方で最先端の方法を上回ることが実証されました。
プロジェクトページ:https://human-vdm.github.io/Human-VDM/

要約(オリジナル)

Generating lifelike 3D humans from a single RGB image remains a challenging task in computer vision, as it requires accurate modeling of geometry, high-quality texture, and plausible unseen parts. Existing methods typically use multi-view diffusion models for 3D generation, but they often face inconsistent view issues, which hinder high-quality 3D human generation. To address this, we propose Human-VDM, a novel method for generating 3D human from a single RGB image using Video Diffusion Models. Human-VDM provides temporally consistent views for 3D human generation using Gaussian Splatting. It consists of three modules: a view-consistent human video diffusion module, a video augmentation module, and a Gaussian Splatting module. First, a single image is fed into a human video diffusion module to generate a coherent human video. Next, the video augmentation module applies super-resolution and video interpolation to enhance the textures and geometric smoothness of the generated video. Finally, the 3D Human Gaussian Splatting module learns lifelike humans under the guidance of these high-resolution and view-consistent images. Experiments demonstrate that Human-VDM achieves high-quality 3D human from a single image, outperforming state-of-the-art methods in both generation quality and quantity. Project page: https://human-vdm.github.io/Human-VDM/

arxiv情報

著者 Zhibin Liu,Haoye Dong,Aviral Chharia,Hefeng Wu
発行日 2024-09-04 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク