Text2Performer: Text-Driven Human Video Generation

要約

タイトル: 「Text2Performer: テキスト駆動型の人間映像生成」

要約:
– テキスト駆動型のコンテンツ作成は、創造性を革新する技術として進化してきています。
– 本研究では、ターゲットのパフォーマーの外観や動きを説明するテキストから映像シークエンスを合成するテキスト駆動型の人間映像生成について研究しています。
– 一般的なテキスト駆動型映像生成に比べ、人間中心の映像生成では、複雑な動きをしながら合成された人間の外観を維持する必要があります。
– 本研究では、Text2Performerという手法を提案し、テキストから筋骨格付きの動きを含んだ生き生きとした人間の映像を生成することができます。
– Text2Performerには、2つの新しいデザインがあります: 1) 分解された人間表現、2) 拡散ベースのモーションサンプル法です。
– 最初に、人間の映像の性質を利用して、VQVAE潜在空間を人間の外観とポーズ表現に非監督学習で分解します。これにより、外観は生成されたフレームでよく維持されます。
– 次に、連続したVQ-diffuserを提案し、ポーズ埋め込みのシーケンスをサンプリングします。従来のVQベースの方法が離散空間で操作するのに対し、連続的なVQ-diffuserは、より良いモーションモデリングのために連続的なポーズ埋め込みを直接出力します。
– 最後に、モーションに注意したマスキング戦略を設計し、空間的・時間的にポーズ埋め込みをマスキングして、時間的な一貫性を高めます。
– さらに、テキスト駆動型の人間映像生成のタスクを容易にするために、アクションラベルとテキストの手動注釈付きのFashion-Text2Videoデータセットを提供しています。
– 広範な実験により、Text2Performerが高品質な人間映像(最大512×256の解像度)で多様な外観と柔軟な動きを生成することが示されました。

要約(オリジナル)

Text-driven content creation has evolved to be a transformative technique that revolutionizes creativity. Here we study the task of text-driven human video generation, where a video sequence is synthesized from texts describing the appearance and motions of a target performer. Compared to general text-driven video generation, human-centric video generation requires maintaining the appearance of synthesized human while performing complex motions. In this work, we present Text2Performer to generate vivid human videos with articulated motions from texts. Text2Performer has two novel designs: 1) decomposed human representation and 2) diffusion-based motion sampler. First, we decompose the VQVAE latent space into human appearance and pose representation in an unsupervised manner by utilizing the nature of human videos. In this way, the appearance is well maintained along the generated frames. Then, we propose continuous VQ-diffuser to sample a sequence of pose embeddings. Unlike existing VQ-based methods that operate in the discrete space, continuous VQ-diffuser directly outputs the continuous pose embeddings for better motion modeling. Finally, motion-aware masking strategy is designed to mask the pose embeddings spatial-temporally to enhance the temporal coherence. Moreover, to facilitate the task of text-driven human video generation, we contribute a Fashion-Text2Video dataset with manually annotated action labels and text descriptions. Extensive experiments demonstrate that Text2Performer generates high-quality human videos (up to 512×256 resolution) with diverse appearances and flexible motions.

arxiv情報

著者 Yuming Jiang,Shuai Yang,Tong Liang Koh,Wayne Wu,Chen Change Loy,Ziwei Liu
発行日 2023-04-17 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク