Multiview Detection with Cardboard Human Modeling


この分野では、既存の方法は通常、「ヒューマン モデリング – アグリゲーション」戦略を採用しています。
堅牢な歩行者の表現を見つけるために、検出された 2D 境界ボックスの位置を直感的に使用するものもあれば、地面に投影されたフレーム フィーチャ全体を使用するものもあります。
具体的には、全体的な人間の深度推定にレイ トレーシングを使用して、歩行者を地面に直立した薄いボール紙の点群としてモデル化します。
2 つの標準的な評価ベンチマークで、提案された方法は非常に競争力のある結果を達成します。


Multiview detection uses multiple calibrated cameras with overlapping fields of views to locate occluded pedestrians. In this field, existing methods typically adopt a ‘human modeling – aggregation’ strategy. To find robust pedestrian representations, some intuitively use locations of detected 2D bounding boxes, while others use entire frame features projected to the ground plane. However, the former does not consider human appearance and leads to many ambiguities, and the latter suffers from projection errors due to the lack of accurate height of the human torso and head. In this paper, we propose a new pedestrian representation scheme based on human point clouds modeling. Specifically, using ray tracing for holistic human depth estimation, we model pedestrians as upright, thin cardboard point clouds on the ground. Then, we aggregate the point clouds of the pedestrian cardboard across multiple views for a final decision. Compared with existing representations, the proposed method explicitly leverages human appearance and reduces projection errors significantly by relatively accurate height estimation. On two standard evaluation benchmarks, the proposed method achieves very competitive results.


著者 Jiahao Ma,Zicheng Duan,Yunzhong Hou,Liang Zheng,Chuong Nguyen
発行日 2022-08-16 12:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク