要約
最近、多視点画像から 3D 人間の姿勢を推定するいくつかの方法が提案され、比較的簡単なシナリオで収集された公開データセットで優れたパフォーマンスを達成しました。
ただし、困難な状況で 3D ポーズの予測精度を高めることができる、マルチモーダル入力 (RGB やポイントクラウドなど) から 3D 人間の骨格を抽出するアプローチは限られています。
マルチビュー RGB とポイントクラウド入力を融合して 3D 人間のポーズを取得する PointVoxel と呼ばれるパイプラインを導入することで、このギャップを埋めます。
我々は、ボリューム表現がこれらの異なるモダリティを統合するための効果的なアーキテクチャであることを実証します。
さらに、困難なシナリオで 3D 人間の姿勢ラベルに注釈を付けるという課題を克服するために、事前トレーニング用の合成データセット ジェネレーターを開発し、教師なしドメイン適応戦略を設計して、マニュアルを使用せずに十分にトレーニングされた 3D 人間の姿勢推定器を取得できるようにします。
注釈。
私たちは 4 つのデータセット (2 つの公開データセット、1 つの合成データセット、および私たち自身が収集した BasketBall という名前の挑戦的なデータセット 1 つ) でアプローチを評価し、有望な結果を示しています。
コードとデータセットは間もなくリリースされる予定です。
要約(オリジナル)
Recently, several methods have been proposed to estimate 3D human pose from multi-view images and achieved impressive performance on public datasets collected in relatively easy scenarios. However, there are limited approaches for extracting 3D human skeletons from multimodal inputs (e.g., RGB and pointcloud) that can enhance the accuracy of predicting 3D poses in challenging situations. We fill this gap by introducing a pipeline called PointVoxel that fuses multi-view RGB and pointcloud inputs to obtain 3D human poses. We demonstrate that volumetric representation is an effective architecture for integrating these different modalities. Moreover, in order to overcome the challenges of annotating 3D human pose labels in difficult scenarios, we develop a synthetic dataset generator for pretraining and design an unsupervised domain adaptation strategy so that we can obtain a well-trained 3D human pose estimator without using any manual annotations. We evaluate our approach on four datasets (two public datasets, one synthetic dataset, and one challenging dataset named BasketBall collected by ourselves), showing promising results. The code and dataset will be released soon.
arxiv情報
著者 | Zhiyu Pan,Zhicheng Zhong,Wenxuan Guo,Yifan Chen,Jianjiang Feng,Jie Zhou |
発行日 | 2023-12-12 04:37:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google