CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes

要約

本研究では、人体メッシュアニメーションのための、テキスト駆動型動作推薦およびニューラル・メッシュ・スタイライゼーション・システム、CLIP-Actorを提案する。CLIP-Actorは、動作シーケンスを推薦し、メッシュのスタイル属性を学習することによって、テキストプロンプトに適合するように3Dの人間のメッシュをアニメーション化する。先行研究は、アーティストがデザインしたメッシュの内容が最初からテキストに適合していない場合、もっともらしい結果を生成することに失敗している。その代わりに、我々は言語ラベルを持つ大規模なヒューマンモーションデータセットを活用することで、テキスト駆動型のヒューマンモーション推薦システムを構築する。CLIP-Actorは、自然言語によるプロンプトが与えられると、まずプロンプトに適合したヒューマンモーションを粗から微分まで提案する。次に、各フレームのポーズから切り離された形で推奨メッシュシーケンスを詳細化し、テクスチャライズする合成-スルー-最適化手法を提案する。これにより、スタイル属性が時間的に一貫し、かつポーズにとらわれない形でプロンプトに適合するようになる。また、分離されたニューラル最適化により、マルチフレームの人間の動きから時空間的なビュー拡張を可能にする。さらに、マスク重み付き埋め込み注意を提案し、少ない前景画素を含む散漫なレンダリングを拒否することによって最適化プロセスを安定化させる。我々は、CLIP-Actorが自然言語によるプロンプトから、詳細な形状とテクスチャを持つ、もっともらしく、人間が認識可能なスタイルの3D人体模型を生成することを実証する。

要約(オリジナル)

We propose CLIP-Actor, a text-driven motion recommendation and neural mesh stylization system for human mesh animation. CLIP-Actor animates a 3D human mesh to conform to a text prompt by recommending a motion sequence and learning mesh style attributes. Prior work fails to generate plausible results when the artist-designed mesh content does not conform to the text from the beginning. Instead, we build a text-driven human motion recommendation system by leveraging a large-scale human motion dataset with language labels. Given a natural language prompt, CLIP-Actor first suggests a human motion that conforms to the prompt in a coarse-to-fine manner. Then, we propose a synthesize-through-optimization method that detailizes and texturizes a recommended mesh sequence in a disentangled way from the pose of each frame. It allows the style attribute to conform to the prompt in a temporally-consistent and pose-agnostic manner. The decoupled neural optimization also enables spatio-temporal view augmentation from multi-frame human motion. We further propose the mask-weighted embedding attention, which stabilizes the optimization process by rejecting distracting renders containing scarce foreground pixels. We demonstrate that CLIP-Actor produces plausible and human-recognizable style 3D human mesh in motion with detailed geometry and texture from a natural language prompt.

arxiv情報

著者 Kim Youwang,Kim Ji-Yeon,Tae-Hyun Oh
発行日 2022-06-09 09:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク