要約
コンピュータビジョンで重要な役割を果たす人間の動きの予測は、通常、入力として過去の動きのシーケンスを必要とします。
ただし、実際のアプリケーションでは、完全で正しい過去のモーションシーケンスは、コストがかかりすぎて達成できない場合があります。
この論文では、混合密度ネットワーク(MDN)モデリングを使用して、はるかに弱い条件、つまり単一の画像から将来の人間の動きを予測するための新しいアプローチを提案します。
ほとんどの既存の深い人間の動きの予測アプローチとは対照的に、MDNのマルチモーダルな性質は、多様な将来の動きの仮説の生成を可能にし、単一の入力と人間の動きの不確実性によって集約された強い確率的曖昧さを十分に補償します。
損失関数の設計では、エネルギーベースの定式化をさらに導入して、MDNの学習可能なパラメーターに事前の損失を柔軟に課し、運動の一貫性を維持し、エネルギー関数をカスタマイズすることで予測精度を向上させます。
トレーニング済みのモデルは、入力として画像を直接取得し、指定された条件を満たす複数のもっともらしいモーションを生成します。
2つの標準ベンチマークデータセットでの広範な実験は、予測の多様性と精度の観点から、私たちの方法の有効性を示しています。
要約(オリジナル)
Human motion prediction, which plays a key role in computer vision, generally requires a past motion sequence as input. However, in real applications, a complete and correct past motion sequence can be too expensive to achieve. In this paper, we propose a novel approach to predicting future human motions from a much weaker condition, i.e., a single image, with mixture density networks (MDN) modeling. Contrary to most existing deep human motion prediction approaches, the multimodal nature of MDN enables the generation of diverse future motion hypotheses, which well compensates for the strong stochastic ambiguity aggregated by the single input and human motion uncertainty. In designing the loss function, we further introduce the energy-based formulation to flexibly impose prior losses over the learnable parameters of MDN to maintain motion coherence as well as improve the prediction accuracy by customizing the energy functions. Our trained model directly takes an image as input and generates multiple plausible motions that satisfy the given condition. Extensive experiments on two standard benchmark datasets demonstrate the effectiveness of our method in terms of prediction diversity and accuracy.
arxiv情報
著者 | Chunzhi Gu,Yan Zhao,Chao Zhang |
発行日 | 2022-07-22 13:52:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google