Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes

要約

屋外環境における 3D 人間の姿勢推定は、最近ますます注目を集めています。
ただし、屋外シーンに関連する一般的な 3D 人間のポーズ データセットは、主に 1 種類のモダリティ (RGB イメージまたはポイントクラウド) のみを使用し、各シーン内で 1 人の個人のみをフィーチャーしているため、多様性に欠けています。
このデータセット インフラストラクチャの範囲が限られているため、利用可能なデータの多様性が大幅に妨げられています。
この記事では、屋外シーンの多視点RGBビデオだけでなく、対応する点群も含む、屋外マルチモーダル多視点多人物人物姿勢データベースHuman-M3を提案します。
正確な人間の姿勢を取得するために、マルチモーダルなデータ入力に基づいてグラウンド トゥルース アノテーションを生成するアルゴリズムを提案します。
これは、堅牢なポイントクラウドの検出と追跡の恩恵を受けます。これにより、屋外の複数人のシーンにおける以前のマルチビュー RGB ビデオに存在する可能性のある不正確な人物位置特定とマッチングの曖昧さの問題が解決され、信頼性の高いグランド トゥルース アノテーションが生成されます。
複数の異なるモダリティアルゴリズムの評価により、このデータベースは挑戦的であり、将来の研究に適していることが示されました。
さらに、マルチモーダル データ入力に基づく 3D 人間の姿勢推定アルゴリズムを提案します。これは、3D 人間の姿勢推定におけるマルチモーダル データ入力の利点を示します。
コードとデータは https://github.com/soullessrobot/Human-M3-Dataset で公開されます。

要約(オリジナル)

3D human pose estimation in outdoor environments has garnered increasing attention recently. However, prevalent 3D human pose datasets pertaining to outdoor scenes lack diversity, as they predominantly utilize only one type of modality (RGB image or pointcloud), and often feature only one individual within each scene. This limited scope of dataset infrastructure considerably hinders the variability of available data. In this article, we propose Human-M3, an outdoor multi-modal multi-view multi-person human pose database which includes not only multi-view RGB videos of outdoor scenes but also corresponding pointclouds. In order to obtain accurate human poses, we propose an algorithm based on multi-modal data input to generate ground truth annotation. This benefits from robust pointcloud detection and tracking, which solves the problem of inaccurate human localization and matching ambiguity that may exist in previous multi-view RGB videos in outdoor multi-person scenes, and generates reliable ground truth annotations. Evaluation of multiple different modalities algorithms has shown that this database is challenging and suitable for future research. Furthermore, we propose a 3D human pose estimation algorithm based on multi-modal data input, which demonstrates the advantages of multi-modal data input for 3D human pose estimation. Code and data will be released on https://github.com/soullessrobot/Human-M3-Dataset.

arxiv情報

著者 Bohao Fan,Siqi Wang,Wenzhao Zheng,Jianjiang Feng,Jie Zhou
発行日 2023-08-01 15:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク