要約
アクション駆動型の人間の動作予測のタスクは、指定されたアクション ラベルを尊重しながら、観察されたシーケンスから将来の人間の動作を予測することを目的としています。
人間の動きの確率論だけでなく、複数のアクション ラベル間のスムーズかつ現実的な移行をモデリングする必要があります。
ただし、ほとんどのデータセットにはそのような遷移データが含まれていないため、このタスクは複雑になります。
既存の研究では、単純に滑らかな遷移を促進する前に滑らかさを学習することでこの問題に取り組んでいますが、そうすることで、特に履歴と予測されたモーションの向きが大きく異なる場合、不自然な遷移が発生する可能性があります。
この論文では、人間の有効な動作トランジションには、向きの変化を処理するために現実的な脚の動きを組み込む必要があり、トランジションの自然さを促進するために、それをアクション条件付き中間 (ACB) 学習タスクとしてキャストする必要があると主張します。
考えられるすべてのトランジションをモデル化するのは事実上不合理であるため、ACB は、歩行や走行などのアクティブな歩行動作を含む、選択されたごく少数のアクション クラスに対してのみ実行されます。
具体的には、最初に動き拡散モデルを使用して特定の将来のアクションを伴うターゲットの動きを生成し、次にその中間を生成して観測と予測を滑らかに接続し、最終的に動きの予測に取り組むという 2 段階の予測戦略に従います。
私たちの方法には、トレーニング中にラベル付けされたモーション遷移データがまったく含まれていません。
私たちのアプローチの堅牢性を示すために、1 つのデータセットでトレーニングされた中間学習モデルを 2 つの目に見えない大規模なモーション データセットに一般化して、自然な遷移を生成します。
3 つのベンチマーク データセットに対する広範な手法により、この手法が視覚的な品質、予測精度、アクションの忠実性の点で最先端のパフォーマンスを生み出すことが実証されました。
要約(オリジナル)
The task of action-driven human motion prediction aims to forecast future human motion from the observed sequence while respecting the given action label. It requires modeling not only the stochasticity within human motion but the smooth yet realistic transition between multiple action labels. However, the fact that most of the datasets do not contain such transition data complicates this task. Existing work tackles this issue by learning a smoothness prior to simply promote smooth transitions, yet doing so can result in unnatural transitions especially when the history and predicted motions differ significantly in orientations. In this paper, we argue that valid human motion transitions should incorporate realistic leg movements to handle orientation changes, and cast it as an action-conditioned in-betweening (ACB) learning task to encourage transition naturalness. Because modeling all possible transitions is virtually unreasonable, our ACB is only performed on very few selected action classes with active gait motions, such as Walk or Run. Specifically, we follow a two-stage forecasting strategy by first employing the motion diffusion model to generate the target motion with a specified future action, and then producing the in-betweening to smoothly connect the observation and prediction to eventually address motion prediction. Our method is completely free from the labeled motion transition data during training. To show the robustness of our approach, we generalize our trained in-betweening learning model on one dataset to two unseen large-scale motion datasets to produce natural transitions. Extensive methods on three benchmark datasets demonstrate that our method yields the state-of-the-art performance in terms of visual quality, prediction accuracy, and action faithfulness.
arxiv情報
著者 | Chunzhi Gu,Chao Zhang,Shigeru Kuriyama |
発行日 | 2023-10-23 13:16:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google