Robust Human Motion Forecasting using Transformer-based Model

要約

人間の動きを理解することは、人間とロボットの協働アプリケーションを開発するための基本的な課題です。
コンピューター ビジョンの研究者は、予測のエラーを減らすことのみに焦点を当て、ロボットへの実装を容易にするための要件を考慮せずに、この分野に取り組んできました。
この論文では、短期および長期のリアルタイム 3D 人間の動き予測を同時に処理する Transformer に基づく新しいモデルを提案します。
当社の 2 チャネル トランスフォーマー (2CH-TR) は、短時間 (400 ミリ秒) 観測されたシーケンスの時空間情報を効率的に活用することができ、現在の最先端技術に匹敵する精度を生成します。
2CH-TR は、トランスフォーマーの効率的なパフォーマンスで際立っており、競合他社よりも軽量で高速です。
さらに、私たちのモデルは、人間の動きが著しく遮られる状況でテストされており、非常にノイズの多い環境での 3D 人間の動きの再構築と予測における堅牢性が実証されています。
私たちの実験結果は、提案された 2CH-TR が、入力プレフィックスの同じ条件下での再構成と予測に関して、Transformer に基づく別の最先端モデルである ST-Transformer よりも優れていることを示しています。
私たちのモデルは、短期予測で ST-Transformer の平均二乗誤差を 8.89% 削減し、400ms の入力プレフィックスを持つ Human3.6M データセットの長期予測で 2.57% 削減します。

要約(オリジナル)

Comprehending human motion is a fundamental challenge for developing Human-Robot Collaborative applications. Computer vision researchers have addressed this field by only focusing on reducing error in predictions, but not taking into account the requirements to facilitate its implementation in robots. In this paper, we propose a new model based on Transformer that simultaneously deals with the real time 3D human motion forecasting in the short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently exploit the spatio-temporal information of a shortly observed sequence (400ms) and generates a competitive accuracy against the current state-of-the-art. 2CH-TR stands out for the efficient performance of the Transformer, being lighter and faster than its competitors. In addition, our model is tested in conditions where the human motion is severely occluded, demonstrating its robustness in reconstructing and predicting 3D human motion in a highly noisy environment. Our experiment results show that the proposed 2CH-TR outperforms the ST-Transformer, which is another state-of-the-art model based on the Transformer, in terms of reconstruction and prediction under the same conditions of input prefix. Our model reduces in 8.89% the mean squared error of ST-Transformer in short-term prediction, and 2.57% in long-term prediction in Human3.6M dataset with 400ms input prefix.

arxiv情報

著者 Esteve Valls Mascaro,Shuo Ma,Hyemin Ahn,Dongheui Lee
発行日 2023-02-16 13:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク