Robust Human Motion Forecasting using Transformer-based Model

要約

人間の動きを理解することは、人間とロボットの協調アプリケーションを開発するための基本的な課題です。
コンピュータビジョンの研究者は、予測の誤差を減らすことだけに焦点を当ててこの分野に取り組んできましたが、ロボットへの実装を容易にするための要件は考慮されていませんでした。
この論文では、短期および長期におけるリアルタイムの 3D 人間の動きの予測を同時に扱う、Transformer に基づく新しいモデルを提案します。
当社の 2 チャンネル トランス (2CH-TR) は、短時間観測されたシーケンス (400 ミリ秒) の時空間情報を効率的に利用することができ、現在の最先端技術に匹敵する精度を生み出します。
2CH-TR はトランスの効率的なパフォーマンスを際立たせており、競合他社よりも軽量かつ高速です。
さらに、私たちのモデルは人間の動きが著しく遮られる条件でテストされ、非常にノイズの多い環境での 3D 人間の動きの再構築と予測における堅牢性が実証されています。
実験の結果、提案した2CH-TRは、同じ入力プレフィックス条件下での再構成と予測の点で、Transformerをベースにしたもう1つの最先端モデルであるST-Transformerよりも優れていることがわかりました。
私たちのモデルは、400 ミリ秒の入力プレフィックスを持つ Human3.6M データセットの短期予測における ST-Transformer の平均二乗誤差を 8.89% 削減し、長期予測において 2.57% 削減します。
ウェブページ: https://evm7.github.io/2CHTR-page/

要約(オリジナル)

Comprehending human motion is a fundamental challenge for developing Human-Robot Collaborative applications. Computer vision researchers have addressed this field by only focusing on reducing error in predictions, but not taking into account the requirements to facilitate its implementation in robots. In this paper, we propose a new model based on Transformer that simultaneously deals with the real time 3D human motion forecasting in the short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently exploit the spatio-temporal information of a shortly observed sequence (400ms) and generates a competitive accuracy against the current state-of-the-art. 2CH-TR stands out for the efficient performance of the Transformer, being lighter and faster than its competitors. In addition, our model is tested in conditions where the human motion is severely occluded, demonstrating its robustness in reconstructing and predicting 3D human motion in a highly noisy environment. Our experiment results show that the proposed 2CH-TR outperforms the ST-Transformer, which is another state-of-the-art model based on the Transformer, in terms of reconstruction and prediction under the same conditions of input prefix. Our model reduces in 8.89% the mean squared error of ST-Transformer in short-term prediction, and 2.57% in long-term prediction in Human3.6M dataset with 400ms input prefix. Webpage: https://evm7.github.io/2CHTR-page/

arxiv情報

著者 Esteve Valls Mascaro,Shuo Ma,Hyemin Ahn,Dongheui Lee
発行日 2024-04-08 15:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク