要約
ヒューマン モーション トランスファー (HMT) は、ソース被写体の動きを模倣することによってターゲット被写体のビデオ クリップを生成することを目的としています。
これまでの方法では、高品質のビデオを合成するという点で良好な結果が得られましたが、ソースとターゲットのモーションからの個別のモーション情報が失われます。これは、生成されたビデオのモーションのリアリズムにとって重要です。
この問題に対処するために、\textit{IDPres} と呼ばれる新しいアイデンティティが保存された HMT ネットワークを提案します。
このネットワークは、ターゲットの個別の動きとスケルトン情報を独自に組み込んでアイデンティティ表現を強化するスケルトンベースのアプローチです。
この統合により、生成されたビデオの動きのリアリズムが大幅に向上します。
私たちの手法は、動きのきめ細かい解きほぐしと合成に焦点を当てています。
潜在空間での表現学習能力を向上させ、 \textit{IDPres} のトレーニングを容易にするために、3 つのトレーニング スキームを導入します。
これらのスキームにより、 \textit{IDPres} はさまざまな表現を同時に解きほぐし、それらを正確に制御して、理想的な動きを確実に合成することができます。
生成されたビデオ内の個人化された動作情報の割合を評価するために、私たちはアイデンティティ スコア (\textit{ID-Score}) と呼ばれる新しい定量的指標を初めて導入しました。これは、アイデンティティ情報の取得における歩行認識方法の成功を動機としています。
さらに、パブリック ドメインから 101 人の被験者のソロ ダンス ビデオで構成されるアイデンティティとモーションのペアのデータセット $Dancer101$ を収集し、HMT 手法の開発を促すベンチマークを提供します。
広範な実験により、提案された \textit{IDPres} メソッドが、再構築の精度、現実的な動き、および同一性の保持の点で既存の最先端技術を上回ることが実証されました。
要約(オリジナル)
Human motion transfer (HMT) aims to generate a video clip for the target subject by imitating the source subject’s motion. Although previous methods have achieved good results in synthesizing good-quality videos, they lose sight of individualized motion information from the source and target motions, which is significant for the realism of the motion in the generated video. To address this problem, we propose a novel identity-preserved HMT network, termed \textit{IDPres}. This network is a skeleton-based approach that uniquely incorporates the target’s individualized motion and skeleton information to augment identity representations. This integration significantly enhances the realism of movements in the generated videos. Our method focuses on the fine-grained disentanglement and synthesis of motion. To improve the representation learning capability in latent space and facilitate the training of \textit{IDPres}, we introduce three training schemes. These schemes enable \textit{IDPres} to concurrently disentangle different representations and accurately control them, ensuring the synthesis of ideal motions. To evaluate the proportion of individualized motion information in the generated video, we are the first to introduce a new quantitative metric called Identity Score (\textit{ID-Score}), motivated by the success of gait recognition methods in capturing identity information. Moreover, we collect an identity-motion paired dataset, $Dancer101$, consisting of solo-dance videos of 101 subjects from the public domain, providing a benchmark to prompt the development of HMT methods. Extensive experiments demonstrate that the proposed \textit{IDPres} method surpasses existing state-of-the-art techniques in terms of reconstruction accuracy, realistic motion, and identity preservation.
arxiv情報
著者 | Jingzhe Ma,Xiaoqing Zhang,Shiqi Yu |
発行日 | 2024-02-22 15:29:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google