V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

要約

ポートレート ビデオ生成の分野では、単一の画像を使用してポートレート ビデオを生成することがますます普及しています。
一般的なアプローチには、生成モデルを活用して、制御された生成用のアダプターを強化することが含まれます。
ただし、制御信号 (テキスト、オーディオ、参照画像、ポーズ、深度マップなど) は強度が異なる場合があります。
これらの中で、より弱い条件はより強い条件からの干渉により効果を発揮するのに苦労することが多く、これらの条件のバランスを取ることが課題となっています。
ポートレートビデオの生成に関する私たちの研究では、音声信号が特に弱く、顔のポーズや参照画像などのより強い信号によって影が薄れてしまうことが多いと特定しました。
ただし、弱い信号で直接トレーニングすると、収束が困難になることがよくあります。
これに対処するために、プログレッシブトレーニングと条件付きドロップアウト操作を通じてさまざまな制御信号のバランスをとる簡単な方法である V-Express を提案します。
本手法により、徐々に弱い条件による効果的な制御が可能となり、顔の姿勢、参照画像、音声を同時に考慮した生成機能を実現します。
実験結果は、私たちの方法がオーディオによって制御されたポートレートビデオを効果的に生成できることを示しています。
さらに、さまざまな強度の条件を同時に効果的に使用するための潜在的な解決策が提供されます。

要約(オリジナル)

In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.

arxiv情報

著者 Cong Wang,Kuan Tian,Jun Zhang,Yonghang Guan,Feng Luo,Fei Shen,Zhiwei Jiang,Qing Gu,Xiao Han,Wei Yang
発行日 2024-06-04 17:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク