Multiscale Residual Learning of Graph Convolutional Sequence Chunks for Human Motion Prediction

要約

時間的および空間的依存性を学習することによって人間の動きを予測するための新しい方法を提案します。
最近では、より高い抽象レベルで人体をモデル化するマルチスケール グラフが開発され、より安定した動作予測が可能になりました。
しかし、現在の方法は、さまざまな動作シーケンスの動作パターンが変化し、空間的に接続された関節の固定グラフに完全に準拠していないにもかかわらず、スケールレベルを事前に決定し、空間的に近位の関節を組み合わせて、人間の事前分布に基づいてより粗いスケールを生成します。
グラフ畳み込み手法に関するもう 1 つの問題はモード崩壊です。モード崩壊では、特に長期予測において、予測された姿勢が認識できる動きを持たずに平均姿勢の周りに収束します。
これらの問題に取り組むために、個々のシーケンス内のすべての関節間のペアの関係に基づいて動的に相関する身体コンポーネントを探索するエンドツーエンドのネットワークである ResChunk を提案します。
ResChunk は、自己回帰的な方法でターゲット シーケンス チャンク間の残差を学習し、連続するチャンク間の時間的接続を強化するようにトレーニングされています。
したがって、これは、複数のレベルでシーケンスの動的な時空間特徴を考慮するシーケンス間予測ネットワークです。
CMU Mocap と Human3.6M という 2 つの挑戦的なベンチマーク データセットに対する私たちの実験は、私たちが提案した方法が動き予測のためのシーケンス情報を効果的にモデル化し、他の技術を上回るパフォーマンスを発揮して新しい最先端を確立できることを実証しました。
私たちのコードは https://github.com/MohsenZand/ResChunk で入手できます。

要約(オリジナル)

A new method is proposed for human motion prediction by learning temporal and spatial dependencies. Recently, multiscale graphs have been developed to model the human body at higher abstraction levels, resulting in more stable motion prediction. Current methods however predetermine scale levels and combine spatially proximal joints to generate coarser scales based on human priors, even though movement patterns in different motion sequences vary and do not fully comply with a fixed graph of spatially connected joints. Another problem with graph convolutional methods is mode collapse, in which predicted poses converge around a mean pose with no discernible movements, particularly in long-term predictions. To tackle these issues, we propose ResChunk, an end-to-end network which explores dynamically correlated body components based on the pairwise relationships between all joints in individual sequences. ResChunk is trained to learn the residuals between target sequence chunks in an autoregressive manner to enforce the temporal connectivities between consecutive chunks. It is hence a sequence-to-sequence prediction network which considers dynamic spatio-temporal features of sequences at multiple levels. Our experiments on two challenging benchmark datasets, CMU Mocap and Human3.6M, demonstrate that our proposed method is able to effectively model the sequence information for motion prediction and outperform other techniques to set a new state-of-the-art. Our code is available at https://github.com/MohsenZand/ResChunk.

arxiv情報

著者 Mohsen Zand,Ali Etemad,Michael Greenspan
発行日 2023-08-31 15:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク