CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion

要約

確率的人間動作予測 (HMP) は、観察されたポーズ シーケンスから将来考えられる複数の人間のポーズ シーケンスを予測することを目的としています。
従来の研究のほとんどは、潜在空間での符号化と復号化を通じて動きの分布を学習しますが、これでは動きの時空間構造が保存されません。
これらの方法は効果的ではありますが、多くの場合、複雑な多段階のトレーニングが必要となり、提供された履歴と矛盾し、物理的に非現実的な予測が生成されます。
これらの問題に対処するために、単一ステージのエンドツーエンド拡散ベースの確率的 HMP フレームワークである CoMusion を提案します。
CoMusion は、将来の姿勢のスムーズな初期化によって予測パフォーマンスが向上するという洞察からインスピレーションを受けており、この戦略はこれまで確率モデルでは利用されていなかったが、決定論的な研究で実証されています。
このような初期化を生成するために、CoMusion のモーション プレディクターは、破損したモーションの初期再構築のために Transformer ベースのネットワークから開始します。
次に、グラフ畳み込みネットワーク (GCN) を使用して、離散コサイン変換 (DCT) 空間での過去の観測を考慮して予測を改良します。
私たちの方法は、Transformer-GCN モジュール設計と提案されたバリアンス スケジューラによって促進され、適切な多様性を維持しながら、正確で現実的で一貫した動きを予測することに優れています。
ベンチマーク データセットの実験結果は、CoMusion があらゆるメトリクスにおいて従来の方法を上回り、優れた生成品質を実証していることを示しています。
私たちのコードは https://github.com/jsun57/CoMusion/ でリリースされています。

要約(オリジナル)

Stochastic Human Motion Prediction (HMP) aims to predict multiple possible future human pose sequences from observed ones. Most prior works learn motion distributions through encoding-decoding in the latent space, which does not preserve motion’s spatial-temporal structure. While effective, these methods often require complex, multi-stage training and yield predictions that are inconsistent with the provided history and can be physically unrealistic. To address these issues, we propose CoMusion, a single-stage, end-to-end diffusion-based stochastic HMP framework. CoMusion is inspired from the insight that a smooth future pose initialization improves prediction performance, a strategy not previously utilized in stochastic models but evidenced in deterministic works. To generate such initialization, CoMusion’s motion predictor starts with a Transformer-based network for initial reconstruction of corrupted motion. Then, a graph convolutional network (GCN) is employed to refine the prediction considering past observations in the discrete cosine transformation (DCT) space. Our method, facilitated by the Transformer-GCN module design and a proposed variance scheduler, excels in predicting accurate, realistic, and consistent motions, while maintaining appropriate diversity. Experimental results on benchmark datasets demonstrate that CoMusion surpasses prior methods across metrics, while demonstrating superior generation quality. Our Code is released at https://github.com/jsun57/CoMusion/ .

arxiv情報

著者 Jiarui Sun,Girish Chowdhary
発行日 2024-08-19 16:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク