SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation

要約

単一の画像から高品質のアニメーション可能な3Dヒトアバターを作成すると、単一の観点から完全な3D情報を再構築することが固有の難しさがあるため、コンピュータービジョンにおける重要な課題のままです。
現在のアプローチは明確な制限に直面しています。3Dガウススプラッティング(3DGS)メソッドは高品質の結果を生成しますが、複数のビューまたはビデオシーケンスが必要です。一方、ビデオ拡散モデルは、単一の画像からアニメーションを生成できますが、一貫性とアイデンティティの保存と闘うことができます。
SVADは、既存の技術の補完的な強さを活用することにより、これらの制限に対処する新しいアプローチです。
私たちの方法は、ビデオ拡散を通じて合成トレーニングデータを生成し、アイデンティティの保存と画像修復モジュールでそれを強化し、この洗練されたデータを利用して3DGSアバターを訓練します。
包括的な評価は、SVADが、リアルタイムのレンダリング機能を有効にしながら、新しいポーズと視点でアイデンティティの一貫性と細かい詳細を維持する際に、最先端の(SOTA)シングルイメージの方法を上回ることを示しています。
データの増強パイプラインを通じて、従来の3DGSアプローチで通常必要とされる密な単眼またはマルチビュートレーニングデータへの依存を克服します。
広範な定量的、定性的比較は、私たちの方法がベースラインモデルに対して複数のメトリックにわたって優れたパフォーマンスを達成することを示しています。
拡散モデルの生成パワーを高品質の結果と3DGの効率の両方を効果的に組み合わせることにより、我々の作業は、単一の画像入力からの高フィ性アバター生成のための新しいアプローチを確立します。

要約(オリジナル)

Creating high-quality animatable 3D human avatars from a single image remains a significant challenge in computer vision due to the inherent difficulty of reconstructing complete 3D information from a single viewpoint. Current approaches face a clear limitation: 3D Gaussian Splatting (3DGS) methods produce high-quality results but require multiple views or video sequences, while video diffusion models can generate animations from single images but struggle with consistency and identity preservation. We present SVAD, a novel approach that addresses these limitations by leveraging complementary strengths of existing techniques. Our method generates synthetic training data through video diffusion, enhances it with identity preservation and image restoration modules, and utilizes this refined data to train 3DGS avatars. Comprehensive evaluations demonstrate that SVAD outperforms state-of-the-art (SOTA) single-image methods in maintaining identity consistency and fine details across novel poses and viewpoints, while enabling real-time rendering capabilities. Through our data augmentation pipeline, we overcome the dependency on dense monocular or multi-view training data typically required by traditional 3DGS approaches. Extensive quantitative, qualitative comparisons show our method achieves superior performance across multiple metrics against baseline models. By effectively combining the generative power of diffusion models with both the high-quality results and rendering efficiency of 3DGS, our work establishes a new approach for high-fidelity avatar generation from a single image input.

arxiv情報

著者 Yonwoo Choi
発行日 2025-05-08 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク