Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model

要約

デジタル領域で本物そっくりのアバターを作成する需要が高まっているため、テキストの説明やポーズに基づいて高品質の人物ビデオを生成する必要性が高まっています。
私たちは、ポーズとテキストの合図によって駆動される人間のモーションビデオを作成するように設計されたダンシングアバターを提案します。
私たちのアプローチでは、事前トレーニングされた T2I 拡散モデルを採用して、自己回帰方式で各ビデオ フレームを生成します。
イノベーションの核心は、文脈上の関連性を維持しながらビデオ フレームを連続的に生成するための T2I 拡散モデルの巧みな利用にあります。
私たちは、人間のさまざまな動きの中で背景の連続性を維持しながら、さまざまなポーズにわたって人間のキャラクターと衣服の一貫性を維持することで、立ちはだかるハードルを乗り越えます。
ビデオ全体で一貫した人間の外観を確保するために、フレーム内位置合わせモジュールを考案しました。
このモジュールは、テキストガイドに従って合成された人間のキャラクターの知識を事前トレーニングされた T2I 拡散モデルに同化し、ChatGPT からの洞察を相乗させます。
背景の連続性を維持するために、セグメント何でもと画像修復技術からの洞察を融合した背景位置合わせパイプラインを提案しました。
さらに、自己回帰パイプラインからインスピレーションを得て、隣接するフレーム間の時間的一貫性を強化するフレーム間アライメント モジュールを提案します。このモジュールでは、前のフレームが現在のフレームの合成プロセスをガイドします。
最先端の手法との比較により、Dancing Avatar は既存の最先端の手法と比較して、人間と背景の忠実度、および時間的一貫性の両方の点で、著しく優れた品質の人間ビデオを生成する能力を示していることが実証されています。
近づいてきます。

要約(オリジナル)

The rising demand for creating lifelike avatars in the digital realm has led to an increased need for generating high-quality human videos guided by textual descriptions and poses. We propose Dancing Avatar, designed to fabricate human motion videos driven by poses and textual cues. Our approach employs a pretrained T2I diffusion model to generate each video frame in an autoregressive fashion. The crux of innovation lies in our adept utilization of the T2I diffusion model for producing video frames successively while preserving contextual relevance. We surmount the hurdles posed by maintaining human character and clothing consistency across varying poses, along with upholding the background’s continuity amidst diverse human movements. To ensure consistent human appearances across the entire video, we devise an intra-frame alignment module. This module assimilates text-guided synthesized human character knowledge into the pretrained T2I diffusion model, synergizing insights from ChatGPT. For preserving background continuity, we put forth a background alignment pipeline, amalgamating insights from segment anything and image inpainting techniques. Furthermore, we propose an inter-frame alignment module that draws inspiration from an auto-regressive pipeline to augment temporal consistency between adjacent frames, where the preceding frame guides the synthesis process of the current frame. Comparisons with state-of-the-art methods demonstrate that Dancing Avatar exhibits the capacity to generate human videos with markedly superior quality, both in terms of human and background fidelity, as well as temporal coherence compared to existing state-of-the-art approaches.

arxiv情報

著者 Bosheng Qin,Wentao Ye,Qifan Yu,Siliang Tang,Yueting Zhuang
発行日 2023-08-15 13:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク