Massively Multi-Person 3D Human Motion Forecasting with Scene Context

要約

長期的な 3D 人間の動きを予測することは困難です。人間の行動には確率性があるため、入力シーケンスのみから現実的な人間の動きを生成するのは困難です。
シーン環境と近くの人々の動きに関する情報は、生成プロセスに大きく役立ちます。
我々は、長期(10秒)の人間の運動動作を予測するためのシーンアウェアソーシャルトランスフォーマーモデル(SAST)を提案します。
以前のモデルとは異なり、私たちのアプローチでは、シーン内のさまざまな数の人々とオブジェクトの両方の間の相互作用をモデル化できます。
時間畳み込みエンコーダ/デコーダ アーキテクチャと Transformer ベースのボトルネックを組み合わせて、モーションとシーンの情報を効率的に組み合わせることができます。
ノイズ除去拡散モデルを使用して条件付きモーション分布をモデル化します。
私たちは、同時に表示される 1 ~ 16 人の人物と 29 ~ 50 のオブジェクトを含む Humans in Kitchens データセットでアプローチをベンチマークします。
私たちのモデルは、さまざまな指標やユーザー調査における現実性と多様性の点で、他のアプローチよりも優れています。
コードは https://github.com/felixbmuller/SAST で入手できます。

要約(オリジナル)

Forecasting long-term 3D human motion is challenging: the stochasticity of human behavior makes it hard to generate realistic human motion from the input sequence alone. Information on the scene environment and the motion of nearby people can greatly aid the generation process. We propose a scene-aware social transformer model (SAST) to forecast long-term (10s) human motion motion. Unlike previous models, our approach can model interactions between both widely varying numbers of people and objects in a scene. We combine a temporal convolutional encoder-decoder architecture with a Transformer-based bottleneck that allows us to efficiently combine motion and scene information. We model the conditional motion distribution using denoising diffusion models. We benchmark our approach on the Humans in Kitchens dataset, which contains 1 to 16 persons and 29 to 50 objects that are visible simultaneously. Our model outperforms other approaches in terms of realism and diversity on different metrics and in a user study. Code is available at https://github.com/felixbmuller/SAST.

arxiv情報

著者 Felix B Mueller,Julian Tanke,Juergen Gall
発行日 2024-09-18 17:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2 パーマリンク