PoseAnimate: Zero-shot high fidelity pose controllable character animation

要約

Image-to-Video(I2V)生成は、単一の画像からビデオ シーケンスを作成することを目的としています。これには、ソース画像との高い時間的コヒーレンスと視覚的忠実度が必要です。しかし、既存のアプローチでは、キャラクターの外観に一貫性がなく、細部の保存が不十分であるという問題があります。
さらに、トレーニングには大量のビデオ データが必要であり、計算量が多くなる場合があります。これらの制限に対処するために、キャラクター アニメーション用の新しいゼロショット I2V フレームワークである PoseAnimate を提案します。PoseAnimate には 3 つの重要なコンポーネントが含まれています。 1) Pose-Aware
コントロール モジュール (PACM) は、さまざまなポーズ信号を条件付き埋め込みに組み込んで、キャラクターに依存しないコンテンツを保存し、アクションの正確な位置合わせを維持します。2) デュアル コンシステンシー アテンション モジュール (DCAM) は、時間的な一貫性を強化し、キャラクターのアイデンティティと複雑な背景の詳細​​を保持します。3)
マスクガイド デカップリング モジュール (MGDM) は、キャラクターと背景を分離することで特徴の認識を改善し、アニメーションの忠実度を向上させます。また、アクションのスムーズな移行を保証するポーズ アライメント移行アルゴリズム (PATA) も提案しています。広範な実験結果により、私たちのアプローチが状態よりも優れていることが実証されています。
キャラクターの一貫性と細部の忠実度の点で、最先端のトレーニングベースのメソッド。
さらに、生成されたアニメーション全体にわたって、高いレベルの時間的一貫性が維持されます。

要約(オリジナル)

Image-to-video(I2V) generation aims to create a video sequence from a single image, which requires high temporal coherence and visual fidelity with the source image.However, existing approaches suffer from character appearance inconsistency and poor preservation of fine details. Moreover, they require a large amount of video data for training, which can be computationally demanding.To address these limitations,we propose PoseAnimate, a novel zero-shot I2V framework for character animation.PoseAnimate contains three key components: 1) Pose-Aware Control Module (PACM) incorporates diverse pose signals into conditional embeddings, to preserve character-independent content and maintain precise alignment of actions.2) Dual Consistency Attention Module (DCAM) enhances temporal consistency, and retains character identity and intricate background details.3) Mask-Guided Decoupling Module (MGDM) refines distinct feature perception, improving animation fidelity by decoupling the character and background.We also propose a Pose Alignment Transition Algorithm (PATA) to ensure smooth action transition.Extensive experiment results demonstrate that our approach outperforms the state-of-the-art training-based methods in terms of character consistency and detail fidelity. Moreover, it maintains a high level of temporal coherence throughout the generated animations.

arxiv情報

著者 Bingwen Zhu,Fanyi Wang,Tianyi Lu,Peng Liu,Jingwen Su,Jinxiu Liu,Yanhao Zhang,Zuxuan Wu,Yu-Gang Jiang,Guo-Jun Qi
発行日 2024-04-30 14:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク