DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance

要約

振付師はダンスがどのようなものかを決定し、カメラマンはダンスの最終的なプレゼンテーションを決定します。
最近、さまざまな方法とデータセットがダンス合成の実現可能性を示しています。
しかし、音楽やダンスとのカメラの動きの合成は、ペアになったデータが不足しているため、未解決の困難な問題のままです。
そこで、カメラの動きとダンス モーションおよび音楽オーディオを初めて組み合わせた、新しいマルチモーダル 3D データセットである DCM を紹介します。
このデータセットには、アニメ コミュニティからのダンス、カメラ、音楽のペア データの 108 個のダンス シーケンス (3.2 時間) が含まれており、4 つの音楽ジャンルをカバーしています。
このデータセットにより、ダンス カメラの動きは多面的かつ人間中心であり、複数の影響要因を持っているため、ダンス カメラの合成がカメラまたはダンスの合成単独と比較してより困難なタスクになっていることがわかりました。
これらの困難を克服するために、我々は、新しい身体注意力喪失と状態分離戦略を組み込んだトランスフォーマーベースの拡散モデルである DanceCamera3D を提案します。
評価のために、カメラの動きの品質、多様性、ダンサーの忠実度を測定する新しい指標を考案します。
これらのメトリクスを利用して、DCM データセットに対して広範な実験を実施し、DanceCamera3D モデルの有効性を示す定量的および定性的な証拠を提供します。
コードとビデオのデモは https://github.com/Carmenw1203/DanceCamera3D-Official で入手できます。

要約(オリジナル)

Choreographers determine what the dances look like, while cameramen determine the final presentation of dances. Recently, various methods and datasets have showcased the feasibility of dance synthesis. However, camera movement synthesis with music and dance remains an unsolved challenging problem due to the scarcity of paired data. Thus, we present DCM, a new multi-modal 3D dataset, which for the first time combines camera movement with dance motion and music audio. This dataset encompasses 108 dance sequences (3.2 hours) of paired dance-camera-music data from the anime community, covering 4 music genres. With this dataset, we uncover that dance camera movement is multifaceted and human-centric, and possesses multiple influencing factors, making dance camera synthesis a more challenging task compared to camera or dance synthesis alone. To overcome these difficulties, we propose DanceCamera3D, a transformer-based diffusion model that incorporates a novel body attention loss and a condition separation strategy. For evaluation, we devise new metrics measuring camera movement quality, diversity, and dancer fidelity. Utilizing these metrics, we conduct extensive experiments on our DCM dataset, providing both quantitative and qualitative evidence showcasing the effectiveness of our DanceCamera3D model. Code and video demos are available at https://github.com/Carmenw1203/DanceCamera3D-Official.

arxiv情報

著者 Zixuan Wang,Jia Jia,Shikun Sun,Haozhe Wu,Rong Han,Zhenyu Li,Di Tang,Jiaqing Zhou,Jiebo Luo
発行日 2024-03-20 15:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク