VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

要約

我々は、最近の生成拡散モデルの成功に基づいて、人物の単一入力画像から音声駆動の人間ビデオを生成する方法である VLOGGER を提案します。
私たちの方法は、1) 人間から 3D モーションへの確率的拡散モデル、および 2) 空間的および時間的制御の両方でテキストから画像へのモデルを強化する新しい拡散ベースのアーキテクチャで構成されます。
これにより、可変長の高品質ビデオの生成がサポートされ、人間の顔や体の高レベル表現を通じて簡単に制御できます。
以前の研究とは対照的に、私たちの方法は各人物のトレーニングを必要とせず、顔の検出やトリミングに依存せず、完全な画像(顔や唇だけでなく)を生成し、広範囲のシナリオ(目に見える胴体など)を考慮します。
コミュニケーションを行う人間を正しく統合するために重要です。
また、3D ポーズと表情の注釈を備え、以前のデータ (800,000 個のアイデンティティ) よりも 1 桁大きく、動的なジェスチャーを備えた新しくて多様なデータセットである MENTOR をキュレートし、これに基づいて主要な技術的貢献をトレーニングおよびアブレートします。
VLOGGER は、上半身のジェスチャも生成しながら、画質、アイデンティティの保持、時間的一貫性を考慮した 3 つの公開ベンチマークで最先端の手法を上回っています。
私たちは、複数の多様性メトリクスに関して VLOGGER のパフォーマンスを分析し、アーキテクチャの選択と MENTOR の使用が、公平で不偏なモデルを大規模にトレーニングするのに有益であることを示しています。
最後に、ビデオ編集とパーソナライゼーションにおけるアプリケーションを紹介します。

要約(オリジナル)

We propose VLOGGER, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of 1) a stochastic human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture that augments text-to-image models with both spatial and temporal controls. This supports the generation of high quality video of variable length, easily controllable through high-level representations of human faces and bodies. In contrast to previous work, our method does not require training for each person, does not rely on face detection and cropping, generates the complete image (not just the face or the lips), and considers a broad spectrum of scenarios (e.g. visible torso or diverse subject identities) that are critical to correctly synthesize humans who communicate. We also curate MENTOR, a new and diverse dataset with 3d pose and expression annotations, one order of magnitude larger than previous ones (800,000 identities) and with dynamic gestures, on which we train and ablate our main technical contributions. VLOGGER outperforms state-of-the-art methods in three public benchmarks, considering image quality, identity preservation and temporal consistency while also generating upper-body gestures. We analyze the performance of VLOGGER with respect to multiple diversity metrics, showing that our architectural choices and the use of MENTOR benefit training a fair and unbiased model at scale. Finally we show applications in video editing and personalization.

arxiv情報

著者 Enric Corona,Andrei Zanfir,Eduard Gabriel Bazavan,Nikos Kolotouros,Thiemo Alldieck,Cristian Sminchisescu
発行日 2024-03-13 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク