MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

要約

このペーパーでは、骨格データとアクションのテキスト記述を統合および同期するモーション予測のためのマルチモーダル拡散モデル(MDMP)を紹介し、定量化可能な不確実性で洗練された長期運動予測を生成します。
モーション予測またはモーション生成の既存の方法は、以前の動きまたはテキストプロンプトのいずれかにのみ依存しており、特に長時間にわたって精度または制御を伴う制限に直面しています。
私たちのアプローチのマルチモーダルの性質は、人間の動きの文脈的理解を高め、グラフベースのトランスフレームワークは空間運動ダイナミクスと時間的運動のダイナミクスの両方を効果的にキャプチャします。
その結果、私たちのモデルは、長期的な動きを正確に予測する際に、既存の生成技術よりも一貫して優れています。
さらに、さまざまな予測モードをキャプチャする拡散モデルの能力を活用することにより、不確実性を推定し、各ボディ関節のさまざまな信頼レベルで存在ゾーンを組み込むことにより、人間とロボットの相互作用の空間的認識を大幅に改善します。

要約(オリジナル)

This paper introduces a Multi-modal Diffusion model for Motion Prediction (MDMP) that integrates and synchronizes skeletal data and textual descriptions of actions to generate refined long-term motion predictions with quantifiable uncertainty. Existing methods for motion forecasting or motion generation rely solely on either prior motions or text prompts, facing limitations with precision or control, particularly over extended durations. The multi-modal nature of our approach enhances the contextual understanding of human motion, while our graph-based transformer framework effectively capture both spatial and temporal motion dynamics. As a result, our model consistently outperforms existing generative techniques in accurately predicting long-term motions. Additionally, by leveraging diffusion models’ ability to capture different modes of prediction, we estimate uncertainty, significantly improving spatial awareness in human-robot interactions by incorporating zones of presence with varying confidence levels for each body joint.

arxiv情報

著者 Leo Bringer,Joey Wilson,Kira Barton,Maani Ghaffari
発行日 2025-06-01 21:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク