AnimateAnywhere: Rouse the Background in Human Image Animation

要約

Human Image Animationは、目的のポーズシーケンスを順守する、与えられたキャラクターと背景の人間のビデオを生成することを目的としています。
ただし、既存の方法は、背景の生成を無視しながら、人間の行動により焦点を当てており、通常は静的な結果や不気味な動きにつながります。
コミュニティは、カメラのポーズガイド付きアニメーションタスクを調査しましたが、カメラの軌道を準備することは、ほとんどのエンターテイメントアプリケーションや通常のユーザーにとっては実用的ではありません。
治療として、カメラの軌跡に要件なしに人間のイメージアニメーションの背景を盛り上げ、Animateanywhere Frameworkを提示します。
特に、人体の動きはしばしば背景の動きを反映するという重要な洞察に基づいて、人間のポーズシーケンスから背景の動きを学ぶために、背景モーション学習者(BML)を導入します。
モデルがより正確なクロスフレームの対応を学ぶように促すために、3D注意マップにエピポーラの制約をさらに展開します。
具体的には、幾何学的に不合理な注意を抑制するために使用されるマスクは、エピポラーマスクと現在の3D注意マップを組み合わせることにより慎重に構築されます。
広範な実験は、私たちのアニマティニーが人間のポーズシーケンスからのバックグラウンドモーションを効果的に学習し、鮮明で現実的な背景を持つ人間のアニメーション結果を生成する上で最先端のパフォーマンスを達成することを示しています。
ソースコードとモデルは、https://github.com/niuxiaoyu1104/animateany whereで入手できます。

要約(オリジナル)

Human image animation aims to generate human videos of given characters and backgrounds that adhere to the desired pose sequence. However, existing methods focus more on human actions while neglecting the generation of background, which typically leads to static results or inharmonious movements. The community has explored camera pose-guided animation tasks, yet preparing the camera trajectory is impractical for most entertainment applications and ordinary users. As a remedy, we present an AnimateAnywhere framework, rousing the background in human image animation without requirements on camera trajectories. In particular, based on our key insight that the movement of the human body often reflects the motion of the background, we introduce a background motion learner (BML) to learn background motions from human pose sequences. To encourage the model to learn more accurate cross-frame correspondences, we further deploy an epipolar constraint on the 3D attention map. Specifically, the mask used to suppress geometrically unreasonable attention is carefully constructed by combining an epipolar mask and the current 3D attention map. Extensive experiments demonstrate that our AnimateAnywhere effectively learns the background motion from human pose sequences, achieving state-of-the-art performance in generating human animation results with vivid and realistic backgrounds. The source code and model will be available at https://github.com/liuxiaoyu1104/AnimateAnywhere.

arxiv情報

著者 Xiaoyu Liu,Mingshuai Yao,Yabo Zhang,Xianhui Lin,Peiran Ren,Xiaoming Li,Ming Liu,Wangmeng Zuo
発行日 2025-04-28 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク