要約
コンピュータビジョンの基本的なタスクとして、群衆計数はシーン内の歩行者の数を予測し、リスク知覚や早期警告、交通制御、シーン統計解析において重要な役割を果たす。現在、ディープラーニングに基づく頭部検出は、群衆計数の有望な手法である。しかし、関心の高い物体検出ネットワークは、3つの理由からこの分野にうまく適用することができない。(1) 既存の損失関数は、単一のキーポイントまたはターゲット領域全体において、すべてのピクセルに対して同じ重みで正の損失を計算するため、高密度で複雑なシーンにおけるサンプルの不均衡はまだ克服されていない、 (2) 正規の物体検出器の損失計算は、物体位置から背景領域への空間の一貫性を考慮しない難しい割り当てである、 (3) ほとんどの既存の頭部検出データセットは、正規の検出器に必須の境界ボックスの代わりに中心点のみを注釈に含んでいる、です。これらの問題に対処するため、我々はマスクフォーカルロス(MFL)と呼ばれる新しい損失関数を提案し、ガウスカーネルを用いたヒートマップのシチュ値に応じて損失寄与を再定義する。MFLは、ヒートマップと二値特徴地図の両方のグランドトゥルースに基づく損失関数のための統一的なフレームワークを提供する。一方、より良い評価と比較のために、35シーケンス、5096画像、1732043頭部ラベル(バウンディングボックス付き)を含む新しい合成データセットGTA_Headを構築する。実験結果は圧倒的な性能を示し、我々の提案するMFLフレームワークが全ての正準検出器と異なるアノテーションパターンを持つ様々なデータセットに適用可能であることを実証している。本研究は、密度推定に基づく群衆計数法を凌駕するための強力なベースラインを提供する。
要約(オリジナル)
As a fundamental computer vision task, crowd counting predicts the number of pedestrians in a scene, which plays an important role in risk perception and early warning, traffic control and scene statistical analysis. Currently, deep learning based head detection is a promising method for crowd counting. However, the highly concerned object detection networks cannot be well applied to this field for three reasons: (1) The sample imbalance has not been overcome yet in highly dense and complex scenes because the existing loss functions calculate the positive loss at a single key point or in the entire target area with the same weight for all pixels; (2) The canonical object detectors’ loss calculation is a hard assignment without taking into account the space coherence from the object location to the background region; and (3) Most of the existing head detection datasets are only annotated with the center points instead of bounding boxes which is mandatory for the canonical detectors. To address these problems, we propose a novel loss function, called Mask Focal Loss (MFL), to redefine the loss contributions according to the situ value of the heatmap with a Gaussian kernel. MFL provides a unifying framework for the loss functions based on both heatmap and binary feature map ground truths. Meanwhile, for better evaluation and comparison, a new synthetic dataset GTA\_Head is built, including 35 sequences, 5096 images and 1732043 head labels with bounding boxes. Experimental results show the overwhelming performance and demonstrate that our proposed MFL framework is applicable to all of the canonical detectors and to various datasets with different annotation patterns. This work provides a strong baseline for surpassing the crowd counting methods based on density estimation.
arxiv情報
| 著者 | Xiaopin Zhong,Guankun Wang,Weixiang Liu,Zongze Wu,Yuanlong Deng | 
| 発行日 | 2023-01-04 14:36:28+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
