Multiview Detection with Cardboard Human Modeling

要約

マルチビュー検出では、視界が重なっている複数のキャリブレーション済みカメラを使用して、遮られている歩行者を特定します。
この分野では、既存の方法は通常、「ヒューマン モデリング – アグリゲーション」戦略を採用しています。
堅牢な歩行者の表現を見つけるために、検出された 2D 境界ボックスの位置を直感的に使用するものもあれば、地面に投影されたフレーム フィーチャ全体を使用するものもあります。
しかし、前者は人間の外見を考慮しておらず、多くの曖昧さをもたらし、後者は人間の胴体と頭の正確な高さの欠如による投影エラーに悩まされています。
この論文では、人間の点群モデリングに基づく新しい歩行者表現方式を提案します。
具体的には、全体的な人間の深度推定にレイ トレーシングを使用して、歩行者を地面に直立した薄いボール紙の点群としてモデル化します。
次に、最終的な決定のために複数のビューにわたって歩行者用段ボールの点群を集約します。
既存の表現と比較して、提案された方法は人間の外観を明示的に活用し、比較的正確な高さ推定によって投影エラーを大幅に削減します。
2 つの標準的な評価ベンチマークで、提案された方法は非常に競争力のある結果を達成します。

要約(オリジナル)

Multiview detection uses multiple calibrated cameras with overlapping fields of views to locate occluded pedestrians. In this field, existing methods typically adopt a ‘human modeling – aggregation’ strategy. To find robust pedestrian representations, some intuitively use locations of detected 2D bounding boxes, while others use entire frame features projected to the ground plane. However, the former does not consider human appearance and leads to many ambiguities, and the latter suffers from projection errors due to the lack of accurate height of the human torso and head. In this paper, we propose a new pedestrian representation scheme based on human point clouds modeling. Specifically, using ray tracing for holistic human depth estimation, we model pedestrians as upright, thin cardboard point clouds on the ground. Then, we aggregate the point clouds of the pedestrian cardboard across multiple views for a final decision. Compared with existing representations, the proposed method explicitly leverages human appearance and reduces projection errors significantly by relatively accurate height estimation. On two standard evaluation benchmarks, the proposed method achieves very competitive results.

arxiv情報

著者 Jiahao Ma,Zicheng Duan,Yunzhong Hou,Liang Zheng,Chuong Nguyen
発行日 2022-08-16 12:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク