Forecasting Actions and Characteristic 3D Poses

要約

アクション ラベルと 3D の特徴的なポーズ (関連するアクションを表す 3D ポーズ) を共同で予測することにより、長期的な将来の人間の行動をモデル化することを提案します。
以前の研究では、アクションと 3D ポーズの予測を別々に検討していましたが、2 つのタスクの性質が結合していることを観察したため、それらを一緒に予測しました。
入力 2D ビデオ観測から開始して、これらのアクションを特徴付ける 3D ポーズと共に、アクションの将来のシーケンスを共同で予測します。
結合されたアクション ラベルと 3D ポーズ アノテーションは、複雑なアクション シーケンスのビデオを取得するのが困難で費用がかかるため、2 つの既存のアクション ビデオ データセットからのアクション ラベルと 2D ポーズ監視を使用してアプローチをトレーニングし、3D 予測の可能性を高める敵対的損失と連携します。
ポーズ。
私たちの実験は、共同行動と特徴的な 3D ポーズ予測の補完的な性質を示しています。私たちの共同アプローチは、個別に処理された各タスクよりも優れており、堅牢で長期的なシーケンス予測を可能にし、アクションと特徴的な 3D ポーズを予測するための代替アプローチよりも優れています。

要約(オリジナル)

We propose to model longer-term future human behavior by jointly predicting action labels and 3D characteristic poses (3D poses representative of the associated actions). While previous work has considered action and 3D pose forecasting separately, we observe that the nature of the two tasks is coupled, and thus we predict them together. Starting from an input 2D video observation, we jointly predict a future sequence of actions along with 3D poses characterizing these actions. Since coupled action labels and 3D pose annotations are difficult and expensive to acquire for videos of complex action sequences, we train our approach with action labels and 2D pose supervision from two existing action video datasets, in tandem with an adversarial loss that encourages likely 3D predicted poses. Our experiments demonstrate the complementary nature of joint action and characteristic 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and outperforms alternative approaches to forecast actions and characteristic 3D poses.

arxiv情報

著者 Christian Diller,Thomas Funkhouser,Angela Dai
発行日 2022-11-25 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク