HumanMAC: Masked Motion Completion for Human Motion Prediction

要約

人間の動作予測は、コンピュータビジョンやコンピュータグラフィックスにおける古典的な問題であり、幅広い実用的な応用が可能である。これまでの効果は、符号化-復号化の方式に基づき、大きな経験的性能を達成している。この方式の方法は、まず以前の動作を潜在的な表現に符号化し、次に潜在的な表現を予測される動作に復号化することで機能する。しかし、実際には、複雑な損失制約、煩雑な学習処理、予測動作のカテゴリ切り替えの少なさなどの問題により、まだ満足のいく結果は得られていない。本論文では、上記の問題点を解決するために、上記の方法から飛び出し、新たな視点から新しいフレームワークを提案する。具体的には、本フレームワークはノイズ除去の拡散スタイルで動作する。学習段階では、ランダムなノイズから運動を生成する運動拡散モデルを学習する。推論段階では、より連続的で制御可能な予測を出力するために、ノイズ除去の手順を用いて、観測された運動に対する運動予測の条件付けを行う。提案するフレームワークは、最適化における損失が1つしか必要なく、エンドツーエンドで学習されるという、有望なアルゴリズム特性を享受している。さらに、アニメーションのような現実的なタスクにおいて重要な、異なるカテゴリの動作の切り替えを効率的に行うことができる。また、ベンチマークを用いた総合的な実験により、提案するフレームワークの優位性を確認しています。プロジェクトページはこちらです。

要約(オリジナル)

Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding fashion. The methods of this fashion work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing fashion and propose a novel framework from a new perspective. Specifically, our framework works in a denoising diffusion style. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, \textit{e.g.}, the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at \url{https://lhchen.top/Human-MAC}.

arxiv情報

著者 Ling-Hao Chen,Jiawei Zhang,Yewen Li,Yiren Pang,Xiaobo Xia,Tongliang Liu
発行日 2023-02-07 18:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク