要約
私たちは、大規模で異種のデータリソースから人間の動きの表現を学習することによって、人間中心のさまざまなビデオタスクに取り組むための統一された視点を提示します。
具体的には、ノイズの多い部分的な 2D 観測から基礎となる 3D モーションを復元するようにモーション エンコーダーをトレーニングする事前トレーニング ステージを提案します。
この方法で取得された動作表現には、人間の動作に関する幾何学的、運動学的、および物理的な知識が組み込まれており、これらの知識は複数の下流タスクに簡単に転送できます。
デュアルストリーム時空間変換器 (DSTformer) ニューラル ネットワークを使用してモーション エンコーダーを実装します。
これは、骨格関節間の長距離の時空間関係を包括的かつ適応的に捕捉することができ、これは、ゼロからトレーニングした場合にこれまでで最も低い 3D 姿勢推定誤差によって例示されます。
さらに、私たちが提案するフレームワークは、単純な回帰ヘッド (1 ~ 2 層) を使用して事前トレーニングされたモーション エンコーダーを微調整するだけで、3 つのダウンストリーム タスクすべてで最先端のパフォーマンスを達成します。これは、学習されたモーション表現の多用途性を示しています。
コードとモデルは https://motionbert.github.io/ で入手できます。
要約(オリジナル)
We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. Code and models are available at https://motionbert.github.io/
arxiv情報
著者 | Wentao Zhu,Xiaoxuan Ma,Zhaoyang Liu,Libin Liu,Wayne Wu,Yizhou Wang |
発行日 | 2023-08-14 12:11:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google