Crowd3D: Towards Hundreds of People Reconstruction from a Single Image


広視野の大規模なシーンでの画像ベースの複数人物の再構成は、群集分析とセキュリティ アラートにとって重要です。
この論文では、Crowd3D を提案します。Crowd3D は、単一の大規模シーン画像からグローバルな一貫性を持って数百人の 3D ポーズ、形状、位置を再構築する最初のフレームワークです。
私たちのアプローチの核心は、新しく定義された概念であるヒューマン シーンの仮想インタラクション ポイント (HVIP) の助けを借りて、複雑な群衆の位置特定の問題をピクセルの位置特定に変換することです。
グローバルな一貫性で群集を再構築するために、シーンレベルのカメラと地面を事前に推定することにより、HVIP に基づくプログレッシブ再構築ネットワークを提案します。
多数の人やさまざまな人間のサイズに対処するために、適応型の人間中心のクロッピング スキームも設計します。
さらに、大規模なシーンでの群衆の再構築のために、ベンチマーク データセットである LargeCrowd を提供しています。


Image-based multi-person reconstruction in wide-field large scenes is critical for crowd analysis and security alert. However, existing methods cannot deal with large scenes containing hundreds of people, which encounter the challenges of large number of people, large variations in human scale, and complex spatial distribution. In this paper, we propose Crowd3D, the first framework to reconstruct the 3D poses, shapes and locations of hundreds of people with global consistency from a single large-scene image. The core of our approach is to convert the problem of complex crowd localization into pixel localization with the help of our newly defined concept, Human-scene Virtual Interaction Point (HVIP). To reconstruct the crowd with global consistency, we propose a progressive reconstruction network based on HVIP by pre-estimating a scene-level camera and a ground plane. To deal with a large number of persons and various human sizes, we also design an adaptive human-centric cropping scheme. Besides, we contribute a benchmark dataset, LargeCrowd, for crowd reconstruction in a large scene. Experimental results demonstrate the effectiveness of the proposed method. The code and datasets will be made public.


著者 Hao Wen,Jing Huang,Huili Cui,Haozhe Lin,YuKun Lai,Lu Fang,Kun Li
発行日 2023-01-23 11:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク