要約
群衆のカウントは、リスクの認識と早期警告、交通制御、シーンの統計分析において重要な役割を果たします。
高密度で複雑なシーンでの群集カウントの課題は、人体部分の相互閉塞、体のスケールの大きな変動、およびイメージング条件の複雑さにあります。
ディープ ラーニング ベースの頭部検出は、群衆カウントの有望な方法です。
ただし、2 つの主な理由により、非常に懸念されるオブジェクト検出ネットワークをこの分野にうまく適用することはできません。
まず、既存の頭部検出データセットのほとんどは、正規検出器に必須の境界ボックスではなく、中心点のみで注釈が付けられています。
第二に、サンプルの不均衡は、高密度で複雑なシーンではまだ克服されていません。これは、既存の損失関数が単一のキー ポイントまたはターゲット エリア全体で同じ重みで正の損失を計算するためです。
これらの問題に対処するために、Mask Focal Loss と呼ばれる新しい損失関数を提案し、ヒートマップのグラウンド トゥルース (GT) とバイナリ フィーチャ マップ GT に基づいて損失関数を統合します。
Mask Focal Loss は、ガウス カーネルを使用したヒートマップの situ 値に従って、損失寄与の重みを再定義します。
より良い評価と比較のために、新しい合成データセット GTA\_Head が公開されました。これには、35 のシーケンス、5096 の画像、境界ボックス付きの 1732043 の頭部ラベルが含まれます。
実験結果は圧倒的なパフォーマンスを示し、提案されたマスク焦点損失がすべての正規検出器と異なる GT を持つさまざまなデータセットに適用できることを示しています。
これは、密度推定に基づく群衆計数法を凌駕するための強力な基盤を提供します。
要約(オリジナル)
Crowd counting plays an important role in risk perception and early warning, traffic control and scene statistical analysis. The challenges of crowd counting in highly dense and complex scenes lie in the mutual occlusion of the human body parts, the large variation of the body scales and the complexity of imaging conditions. Deep learning based head detection is a promising method for crowd counting. However the highly concerned object detection networks cannot be well applied to this field for two main reasons. First, most of the existing head detection datasets are only annotated with the center points instead of bounding boxes which is mandatory for the canonical detectors. Second, the sample imbalance has not been overcome yet in highly dense and complex scenes because the existing loss functions calculate the positive loss at a single key point or in the entire target area with the same weight. To address these problems, We propose a novel loss function, called Mask Focal Loss, to unify the loss functions based on heatmap ground truth (GT) and binary feature map GT. Mask Focal Loss redefines the weight of the loss contributions according to the situ value of the heatmap with a Gaussian kernel. For better evaluation and comparison, a new synthetic dataset GTA\_Head is made public, including 35 sequences, 5096 images and 1732043 head labels with bounding boxes. Experimental results show the overwhelming performance and demonstrate that our proposed Mask Focal Loss is applicable to all of the canonical detectors and to various datasets with different GT. This provides a strong basis for surpassing the crowd counting methods based on density estimation.
arxiv情報
著者 | Xiaopin Zhong,Guankun Wang,Weixiang Liua,Zongze Wua,Yuanlong Deng |
発行日 | 2022-12-22 08:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google