要約
人間とロボットのインタラクションや自律走行などのセーフティクリティカルなアプリケーションにおいて、長期的な人間の動作予測は不可欠である。本論文では、長期予測を実現するためには、すべての時間瞬間の人間の姿勢を予測することは不要であることを示す。その代わりに、いくつかのキーポーズを予測し、キーポーズを補間することによって中間ポーズを近似することがより効果的である。 我々は、この手法により、文献にある一般的な1秒よりもはるかに長い、5秒先までの現実的な動作を予測できることを実証した。さらに、将来のキーポーズを確率的にモデル化しているため、推論時にサンプリングすることで、将来のもっともらしい動作を複数生成することができる。このように長時間にわたって、我々の予測はより現実的で、より多様で、最先端の手法よりも運動ダイナミクスをよりよく保存することができる。
要約(オリジナル)
Long term human motion prediction is essential in safety-critical applications such as human-robot interaction and autonomous driving. In this paper we show that to achieve long term forecasting, predicting human pose at every time instant is unnecessary. Instead, it is more effective to predict a few keyposes and approximate intermediate ones by interpolating the keyposes. We demonstrate that our approach enables us to predict realistic motions for up to 5 seconds in the future, which is far longer than the typical 1 second encountered in the literature. Furthermore, because we model future keyposes probabilistically, we can generate multiple plausible future motions by sampling at inference time. Over this extended time period, our predictions are more realistic, more diverse and better preserve the motion dynamics than those state-of-the-art methods yield.
arxiv情報
著者 | Sena Kiciroglu,Wei Wang,Mathieu Salzmann,Pascal Fua |
発行日 | 2022-09-02 14:15:05+00:00 |
arxivサイト | arxiv_id(pdf) |