FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild

要約

自然の光景から人体の 3D 構造を推定することは、視覚認識の基本的な側面です。
このタスクは、AIGC や人間とロボットのインタラクションなどの分野で非常に重要です。
実際には、現実世界の設定における 3D 人間の姿勢推定は、この問題を解決するための重要な最初のステップです。
しかし、現在のデータセットは、複雑なモーション キャプチャ機器と変化のない背景を使用して、制御された実験室条件下で収集されることが多く、不十分です。
現実世界のデータセットがないことが、この重要なタスクの進捗を遅らせています。
3D 姿勢推定の開発を促進するために、最初の大規模な実世界マルチビュー データセットである FreeMan を紹介します。
FreeMan は、さまざまなシナリオで 8 台のスマートフォンを同期してキャプチャされました。
これは、さまざまな視点から見た 8,000 のシーケンスからの 1,100 万のフレームで構成されています。
これらのシーケンスでは、照明条件が異なる 10 の異なるシナリオにわたる 40 の主題をカバーしています。
また、大規模な処理を効率的に行うことができる、自動化された正確なラベル付けパイプラインも確立しました。
当社は、FreeMan によってもたらされる重大な課題を強調しながら、さまざまなタスクに対する包括的な評価ベースラインを提供します。
標準的な屋内/屋外の人間検知データセットをさらに評価すると、FreeMan が現実の複雑なシーンで堅牢な表現伝達性を提供することが明らかになりました。
FreeMan は現在、https://wangjiongw.github.io/freeman で公開されています。

要約(オリジナル)

Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. This task carries great importance for fields like AIGC and human-robot interaction. In practice, 3D human pose estimation in real-world settings is a critical initial step in solving this problem. However, the current datasets, often collected under controlled laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of real-world datasets is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, real-world multi-view dataset. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an automated, precise labeling pipeline that allows for large-scale processing efficiently. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. FreeMan is now publicly available at https://wangjiongw.github.io/freeman.

arxiv情報

著者 Jiong Wang,Fengyu Yang,Wenbo Gou,Bingliang Li,Danqi Yan,Ailing Zeng,Yijun Gao,Junle Wang,Ruimao Zhang
発行日 2023-09-12 15:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク