要約
人間のイメージのアニメーションには、キャラクターの写真からビデオを生成することが含まれており、ユーザーによる制御が可能になり、ビデオや映画制作の可能性が解き放たれます。
最近のアプローチでは高品質のトレーニング データを使用して優れた結果が得られますが、これらのデータセットにアクセスできないため、公平かつ透明性のあるベンチマークが妨げられています。
さらに、これらのアプローチは 2D 人間の動きを優先し、ビデオ内のカメラの動きの重要性を見落とすため、制御が制限され、ビデオ生成が不安定になります。トレーニング データをわかりやすくするために、人間の画像に合わせて調整された初の大規模で高品質なデータセットである HumanVid を紹介します。
アニメーション。作成された現実世界のデータと合成データを組み合わせます。
現実世界のデータとして、インターネットから著作権フリーの現実世界のビデオの膨大なコレクションを編集しました。
慎重に設計されたルールベースのフィルタリング戦略を通じて、高品質のビデオが確実に含まれるようにし、その結果、1080P 解像度の 20K の人間中心のビデオのコレクションが得られます。
人間とカメラの動きの注釈は、2D 姿勢推定器と SLAM ベースの方法を使用して実現されます。
合成データについては、著作権フリーの 3D アバター アセットを 2,300 個収集し、既存の利用可能な 3D アバターを補強します。
特に、ルールベースのカメラ軌跡生成方法を導入し、合成パイプラインに、現実世界のデータではめったに見られない多様で正確なカメラ モーション アノテーションを組み込むことが可能になります。
HumanVid の有効性を検証するために、人間とカメラの動きの両方を条件として考慮する CamAnimate (Camera-controllable Human Animation の略) という名前のベースライン モデルを確立します。
広範な実験を通じて、HumanVid でのこのような単純なベースライン トレーニングが人間のポーズとカメラの動きの両方の制御において最先端のパフォーマンスを達成し、新しいベンチマークを設定することを実証しました。
コードとデータは \url{https://github.com/zhenzhiwang/HumanVid/} で公開されます。
要約(オリジナル)
Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation.To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at \url{https://github.com/zhenzhiwang/HumanVid/}.
arxiv情報
著者 | Zhenzhi Wang,Yixuan Li,Yanhong Zeng,Youqing Fang,Yuwei Guo,Wenran Liu,Jing Tan,Kai Chen,Tianfan Xue,Bo Dai,Dahua Lin |
発行日 | 2024-07-24 17:15:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google