Human MotionFormer: Transferring Human Motions with Vision Transformers


ヒューマン モーション トランスファーは、ターゲットの動的な人物からソースの静的な人物にモーションを合成してモーションを合成することを目的としています。
このホワイト ペーパーでは、大規模なモーション マッチングと微妙なモーション マッチングをそれぞれキャプチャするために、グローバルな認識とローカルな認識を活用する階層型 ViT フレームワークである Human MotionFormer を提案します。
これは、入力特徴 (つまり、ターゲット モーション イメージとソース人物イメージ) を抽出する 2 つの ViT エンコーダーと、特徴マッチングとモーション転送用の複数のカスケード ブロックを備えた ViT デコーダーで構成されます。
各ブロックでは、ターゲットのモーション機能をクエリとして、ソースの人物をキーと値として設定し、クロスアテンション マップを計算してグローバルな機能マッチングを実行します。
このマッチング プロセスは、ワーピング ブランチと生成ブランチの両方で実装され、モーション転送をガイドします。
トレーニング中に、相互学習損失を提案して、ワーピング ブランチと生成ブランチ間の共同監督を有効にし、より良いモーション表現を実現します。
実験では、Human MotionFormer が質的にも量的にも新しい最先端のパフォーマンスを設定することが示されています。


Human motion transfer aims to transfer motions from a target dynamic person to a source static one for motion synthesis. An accurate matching between the source person and the target motion in both large and subtle motion changes is vital for improving the transferred motion quality. In this paper, we propose Human MotionFormer, a hierarchical ViT framework that leverages global and local perceptions to capture large and subtle motion matching, respectively. It consists of two ViT encoders to extract input features (i.e., a target motion image and a source human image) and a ViT decoder with several cascaded blocks for feature matching and motion transfer. In each block, we set the target motion feature as Query and the source person as Key and Value, calculating the cross-attention maps to conduct a global feature matching. Further, we introduce a convolutional layer to improve the local perception after the global cross-attention computations. This matching process is implemented in both warping and generation branches to guide the motion transfer. During training, we propose a mutual learning loss to enable the co-supervision between warping and generation branches for better motion representations. Experiments show that our Human MotionFormer sets the new state-of-the-art performance both qualitatively and quantitatively. Project page: \url{}


著者 Hongyu Liu,Xintong Han,ChengBin Jin,Huawei Wei,Zhe Lin,Faqiang Wang,Haoye Dong,Yibing Song,Jia Xu,Qifeng Chen
発行日 2023-02-22 11:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク