FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations

要約

我々は、容易に利用可能な 2D 人間の行動データからの弱い監視のみを必要とする、長期的な将来の人間の行動を 3D で予測するための生成的アプローチを提案します。
これは、多くの下流アプリケーションを可能にする基本的なタスクです。
必要なグラウンドトゥルース データは、3D (モーション キャプチャ スーツ、高価なセットアップ) でキャプチャするのは困難ですが、2D (シンプルな RGB カメラ) で取得するのは簡単です。
したがって、3D 人間のモーション シーケンスを生成できる一方で、推論時に 2D RGB データのみを必要とするようにメソッドを設計します。
弱い監視には自己回帰的な方法で微分可能な 2D 射影スキームを使用し、3D 正則化には敵対的損失を使用します。
私たちの方法は、複数のサブアクションから構成される長く複雑な人間の行動シーケンス (調理、組み立てなど) を予測します。
私たちは意味論的に階層的な方法でこれに取り組み、高レベルの粗いアクションラベルを、特徴的な 3D 人間のポーズとしての低レベルのきめ細かい実現とともに共同で予測します。
これら 2 つのアクション表現は本質的に結合されており、共同予測はアクションとポーズの両方の予測に利益をもたらすことがわかります。
私たちの実験は、関節動作と 3D ポーズ予測の相補的な性質を示しています。つまり、関節動作は個別に処理された各タスクよりも優れたパフォーマンスを発揮し、堅牢な長期シーケンス予測を可能にし、動作と特徴的な 3D ポーズを予測する代替アプローチよりも改善されています。

要約(オリジナル)

We present a generative approach to forecast long-term future human behavior in 3D, requiring only weak supervision from readily available 2D human action data. This is a fundamental task enabling many downstream applications. The required ground-truth data is hard to capture in 3D (mocap suits, expensive setups) but easy to acquire in 2D (simple RGB cameras). Thus, we design our method to only require 2D RGB data at inference time while being able to generate 3D human motion sequences. We use a differentiable 2D projection scheme in an autoregressive manner for weak supervision, and an adversarial loss for 3D regularization. Our method predicts long and complex human behavior sequences (e.g., cooking, assembly) consisting of multiple sub-actions. We tackle this in a semantically hierarchical manner, jointly predicting high-level coarse action labels together with their low-level fine-grained realizations as characteristic 3D human poses. We observe that these two action representations are coupled in nature, and joint prediction benefits both action and pose forecasting. Our experiments demonstrate the complementary nature of joint action and 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and improves over alternative approaches to forecast actions and characteristic 3D poses.

arxiv情報

著者 Christian Diller,Thomas Funkhouser,Angela Dai
発行日 2024-05-17 14:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク