要約
人間の動きの予測は、コンピュータ ビジョンおよびコンピュータ グラフィックスにおける古典的な問題であり、実際に幅広い応用が可能です。
以前のエフェクトは、エンコード/デコード スタイルに基づいて優れた経験的パフォーマンスを実現しました。
このスタイルの方法は、最初に以前のモーションを潜在表現にエンコードし、次に潜在表現を予測モーションにデコードすることによって機能します。
しかし、実際には、複雑な損失制約、煩雑なトレーニングプロセス、予測における異なるカテゴリのモーションの切り替えが少ないなど、いくつかの問題があるため、まだ満足のいくものではありません。
本稿では、上記の課題を解決するために、これまでのスタイルを飛び出し、新たな視点から新たなフレームワークを提案します。
具体的には、私たちのフレームワークはマスクされた補完方式で動作します。
トレーニング段階では、ランダムノイズからモーションを生成するモーション拡散モデルを学習します。
推論段階では、ノイズ除去手順を使用して、観察された動きに条件付けされた動き予測を行い、より連続的で制御可能な予測を出力します。
提案されたフレームワークは、最適化で 1 つの損失のみを必要とし、エンドツーエンドの方法でトレーニングされる、有望なアルゴリズム特性を備えています。
さらに、異なるカテゴリのモーションの切り替えを効果的に実行します。これは、アニメーション タスクなどの現実的なタスクで重要です。
ベンチマークに関する包括的な実験により、提案されたフレームワークの優位性が確認されています。
プロジェクト ページは https://lhchen.top/Human-MAC で入手できます。
要約(オリジナル)
Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding style. The methods of this style work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing style and propose a novel framework from a new perspective. Specifically, our framework works in a masked completion fashion. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, e.g., the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at https://lhchen.top/Human-MAC.
arxiv情報
著者 | Ling-Hao Chen,Jiawei Zhang,Yewen Li,Yiren Pang,Xiaobo Xia,Tongliang Liu |
発行日 | 2023-07-17 17:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google