STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a Non-Autoregressive Transformer for Robot Following Ahead

要約

この論文では、観察された人間の動作履歴から将来の人間の動作を予測するニューラル ネットワーク モデルを開発します。
私たちは、非自己回帰トランスフォーマー アーキテクチャを提案し、その並列性を利用してトレーニングを容易にし、テスト時の高速で正確な予測を実現します。
提案されたアーキテクチャは、人間の動きの予測を 2 つの部分に分割します。1) 時間の経過に伴う股関節の 3D 位置である人間の軌道、および 2) 固定された股関節に対する時間の経過に伴う他のすべての関節の 3D 位置である人間のポーズ。
共有表現によりモデルのパフォーマンスが向上する可能性があるため、2 つの予測を同時に行うことを提案します。
したがって、モデルは 2 セットのエンコーダーとデコーダーで構成されます。
まず、エンコーダー出力に適用されるマルチヘッド アテンション モジュールにより、人間の軌道が改善されます。
第 2 に、デコーダ出力と連結されたエンコーダ出力に適用される別のマルチヘッド セルフ アテンション モジュールにより、時間依存関係の学習が容易になります。
私たちのモデルは、テストの精度と速度の点でロボットアプリケーションに最適であり、最先端の方法と比べても遜色ありません。
私たちは、ロボット フォローアヘッド タスクを通じて、私たちの作業が現実世界に適用可能であることを実証します。これは、私たちが提案するモデルの挑戦的ですが実用的なケーススタディです。

要約(オリジナル)

In this paper, we develop a neural network model to predict future human motion from an observed human motion history. We propose a non-autoregressive transformer architecture to leverage its parallel nature for easier training and fast, accurate predictions at test time. The proposed architecture divides human motion prediction into two parts: 1) the human trajectory, which is the hip joint 3D position over time and 2) the human pose which is the all other joints 3D positions over time with respect to a fixed hip joint. We propose to make the two predictions simultaneously, as the shared representation can improve the model performance. Therefore, the model consists of two sets of encoders and decoders. First, a multi-head attention module applied to encoder outputs improves human trajectory. Second, another multi-head self-attention module applied to encoder outputs concatenated with decoder outputs facilitates learning of temporal dependencies. Our model is well-suited for robotic applications in terms of test accuracy and speed, and compares favorably with respect to state-of-the-art methods. We demonstrate the real-world applicability of our work via the Robot Follow-Ahead task, a challenging yet practical case study for our proposed model.

arxiv情報

著者 Mohammad Mahdavian,Payam Nikdel,Mahdi TaherAhmadi,Mo Chen
発行日 2025-01-17 16:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク