要約
マルチビュー検出は、視野が重複する複数の較正済みカメラを使用して、隠蔽された歩行者の位置を特定する。この分野では、既存の手法は一般的に「ヒューマンモデリング – 集約」戦略を採用している。歩行者の位置情報を得るために、直感的に2次元バウンディングボックスの位置を利用する手法や、フレーム全体の地表面への投影を利用する手法がある。しかし、前者は人間の外観を考慮していないため、多くの曖昧さをもたらし、後者は人間の胴体や頭部の高さが正確でないため、投影誤差に悩まされる。本論文では、人体点群モデリングに基づく新しい歩行者表現方式を提案する。具体的には、レイトレーシングを用いた全体的な人間の奥行き推定を行い、歩行者を地面上の直立した薄い段ボールの点群としてモデル化する。そして、複数のビューにまたがる歩行者段ボールの点群を集約し、最終的な判定を行う。既存の表現と比較して、提案手法は人間の外観を明示的に活用し、比較的正確な高さ推定により投影誤差を大幅に低減する。2つの標準的な評価ベンチマークにおいて、提案手法は非常に競争力のある結果を達成した。
要約(オリジナル)
Multiview detection uses multiple calibrated cameras with overlapping fields of views to locate occluded pedestrians. In this field, existing methods typically adopt a “human modeling – aggregation” strategy. To find robust pedestrian representations, some intuitively use locations of detected 2D bounding boxes, while others use entire frame features projected to the ground plane. However, the former does not consider human appearance and leads to many ambiguities, and the latter suffers from projection errors due to the lack of accurate height of the human torso and head. In this paper, we propose a new pedestrian representation scheme based on human point clouds modeling. Specifically, using ray tracing for holistic human depth estimation, we model pedestrians as upright, thin cardboard point clouds on the ground. Then, we aggregate the point clouds of the pedestrian cardboard across multiple views for a final decision. Compared with existing representations, the proposed method explicitly leverages human appearance and reduces projection errors significantly by relatively accurate height estimation. On two standard evaluation benchmarks, the proposed method achieves very competitive results.
arxiv情報
著者 | Jiahao Ma,Zicheng Duan,Yunzhong Hou,Liang Zheng,Chuong Nguyen |
発行日 | 2022-07-05 12:47:26+00:00 |
arxivサイト | arxiv_id(pdf) |