MagicAvatar: Multimodal Avatar Generation and Animation

要約

このレポートでは、人間のアバターのマルチモーダル ビデオ生成およびアニメーションのフレームワークである MagicAvatar について説明します。
マルチモーダル入力 (テキスト プロンプトなど) からアバター中心のビデオを直接生成する既存のほとんどの方法とは異なり、MagicAvatar はアバター ビデオの生成を、(1) マルチモーダルからモーションへの生成と (2) モーションからビデオへの生成の 2 つの段階に明示的に分解します。
最初のステージでは、マルチモーダル入力をモーション/制御信号 (人間のポーズ、深度、DensePose など) に変換します。
一方、第 2 段階では、これらのモーション信号に基づいてアバター中心のビデオが生成されます。
さらに、MagicAvatar は対象人物の画像をいくつか提供するだけでアバター アニメーションをサポートします。
この機能により、最初の段階で得られた特定のモーションに従って、提供された人間のアイデンティティのアニメーションが可能になります。
テキストガイドおよびビデオガイドによるアバター生成やマルチモーダル アバター アニメーションなど、さまざまなアプリケーションを通じて MagicAvatar の柔軟性を実証します。

要約(オリジナル)

This report presents MagicAvatar, a framework for multimodal video generation and animation of human avatars. Unlike most existing methods that generate avatar-centric videos directly from multimodal inputs (e.g., text prompts), MagicAvatar explicitly disentangles avatar video generation into two stages: (1) multimodal-to-motion and (2) motion-to-video generation. The first stage translates the multimodal inputs into motion/ control signals (e.g., human pose, depth, DensePose); while the second stage generates avatar-centric video guided by these motion signals. Additionally, MagicAvatar supports avatar animation by simply providing a few images of the target person. This capability enables the animation of the provided human identity according to the specific motion derived from the first stage. We demonstrate the flexibility of MagicAvatar through various applications, including text-guided and video-guided avatar generation, as well as multimodal avatar animation.

arxiv情報

著者 Jianfeng Zhang,Hanshu Yan,Zhongcong Xu,Jiashi Feng,Jun Hao Liew
発行日 2023-08-28 17:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク