Multi-Graph Convolution Network for Pose Forecasting

要約

タイトル:姿勢予測のためのマルチグラフ畳み込みネットワーク

要約:
– 最近、人間の動きを予測することに関する関心が高まっており、観測された姿勢のシーケンスに基づいて将来の姿勢を予測するというタスクが含まれます。
– このタスクは、空間的および時間的関係のモデリングのために複雑です。
– このタスクに最も一般的に使用されるモデルは、再帰ニューラルネットワーク(RNN)などの自己回帰モデルやTransformerネットワークなどです。
– しかし、RNNには勾配消失や爆発のなどの欠点があります。
– 空間的な問題を解決するために、グラフ畳み込みネットワーク(GCN)と長期記憶(LSTM)モデルを統合する別のアプローチがあります。 しかし、これらのモデルは空間情報と時間情報を別々に扱っているため、効果が限定されます。
– この問題を解決するために、著者らは、3D人間姿勢予測のためにマルチグラフ畳み込みネットワーク(MGCN)と呼ばれる新しいアプローチを提案しています。
– このモデルは、拡張したグラフを導入することによって、1つのグラフインスタンスに結合された複数のフレームで複数の部分が提供されるため、空間情報と時間情報を同時にキャプチャします。
– さらに、自然な構造とシーケンスに気を配った注意力の影響も考慮しています。
– 著者らの大規模なベンチマークデータセット、Human3.6M、AMSS、3DPWの実験評価では、MGCNが姿勢予測の最新技術を上回りました。

要約(オリジナル)

Recently, there has been a growing interest in predicting human motion, which involves forecasting future body poses based on observed pose sequences. This task is complex due to modeling spatial and temporal relationships. The most commonly used models for this task are autoregressive models, such as recurrent neural networks (RNNs) or variants, and Transformer Networks. However, RNNs have several drawbacks, such as vanishing or exploding gradients. Other researchers have attempted to solve the communication problem in the spatial dimension by integrating Graph Convolutional Networks (GCN) and Long Short-Term Memory (LSTM) models. These works deal with temporal and spatial information separately, which limits the effectiveness. To fix this problem, we propose a novel approach called the multi-graph convolution network (MGCN) for 3D human pose forecasting. This model simultaneously captures spatial and temporal information by introducing an augmented graph for pose sequences. Multiple frames give multiple parts, joined together in a single graph instance. Furthermore, we also explore the influence of natural structure and sequence-aware attention to our model. In our experimental evaluation of the large-scale benchmark datasets, Human3.6M, AMSS and 3DPW, MGCN outperforms the state-of-the-art in pose prediction.

arxiv情報

著者 Hongwei Ren,Yuhong Shi,Kewei Liang
発行日 2023-04-11 03:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク