Multiview Detection with Cardboard Human Modeling

要約

マルチビュー検出は、視野が重複する複数の較正済みカメラを使用して、隠蔽された歩行者の位置を特定する。この分野では、既存の手法は一般的に「ヒューマンモデリング-アグリゲーション」戦略を採用している。また、フレーム全体の特徴量を地上面に投影して用いる手法もある。しかし、前者は人間の外観を考慮していないため、多くの曖昧さをもたらし、後者は人間の胴体や頭の高さが正確でないため、投影誤差に悩まされる。本論文では、人体点群モデリングに基づく新しい歩行者表現方式を提案する。具体的には、レイトレーシングを用いた全体的な人間の奥行き推定を行い、歩行者を地面上の直立した薄い段ボールの点群としてモデル化する。そして、複数のビューにまたがる歩行者段ボールの点群を集約し、最終的な判定を行う。既存の表現と比較して、提案手法は人間の外観を明示的に活用し、比較的正確な高さ推定により投影誤差を大幅に低減する。4つの標準的な評価ベンチマークにおいて、提案手法は非常に競争力のある結果を達成しました。我々のコードとデータは、https://github.com/ZichengDuan/MvCHM で公開される予定です。

要約(オリジナル)

Multiview detection uses multiple calibrated cameras with overlapping fields of views to locate occluded pedestrians. In this field, existing methods typically adopt a “human modeling – aggregation” strategy. To find robust pedestrian representations, some intuitively incorporate 2D perception results from each frame, while others use entire frame features projected to the ground plane. However, the former does not consider the human appearance and leads to many ambiguities, and the latter suffers from projection errors due to the lack of accurate height of the human torso and head. In this paper, we propose a new pedestrian representation scheme based on human point clouds modeling. Specifically, using ray tracing for holistic human depth estimation, we model pedestrians as upright, thin cardboard point clouds on the ground. Then, we aggregate the point clouds of the pedestrian cardboard across multiple views for a final decision. Compared with existing representations, the proposed method explicitly leverages human appearance and reduces projection errors significantly by relatively accurate height estimation. On four standard evaluation benchmarks, the proposed method achieves very competitive results. Our code and data will be released at https://github.com/ZichengDuan/MvCHM.

arxiv情報

著者 Jiahao Ma,Zicheng Duan,Liang Zheng,Chuong Nguyen
発行日 2023-01-06 00:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク