FGENet: Fine-Grained Extraction Network for Congested Crowd Counting

要約

群衆カウントは、その実用的な応用により非常に人気が高まっています。
しかし、主流の計数方法は、正確な個人の位置特定を無視し、推定密度マップから計数するため、注釈ノイズに悩まされます。
さらに、高密度画像にも苦労します。これらの問題に対処するために、私たちは Fine-Grained Extraction Network (FGENet) と呼ばれるエンドツーエンド モデルを提案します。
密度マップを推定する方法とは異なり、FGENet は個人の正確な位置を表す元の座標点を直接学習します。この研究では、バックボーンによって抽出された特徴マップを融合するために使用される Fine-Grained Feature Pyramid(FGFP) と呼ばれる融合モジュールを設計します。
FGENetの。
融合された特徴は回帰ヘッドと分類ヘッドの両方に渡され、前者は特定の画像の予測点座標を提供し、後者は個々の予測点の信頼レベルを決定します。
最後に、FGENet はハンガリーのアルゴリズムを使用して、予測ポイントとグラウンド トゥルース ポイントの間の対応関係を確立します。
FGENet をトレーニングするために、アノテーション ノイズの影響を軽減するために、Three-Task Combination (TTC) という名前の堅牢な損失関数を設計しました。
広く使用されている 4 つの群衆カウント データセットに対して広範な実験が行われています。
実験結果は、FGENet の有効性を示しています。
特に、私たちの方法はShanghaiTech Part Aデータセットの平均絶対誤差(MAE)で3.14ポイントの顕著な改善を達成し、既存の最先端の方法よりも優れていることを示しています。
さらに印象的なのは、FGENet が MAE で 30.16 ポイントという驚異的な向上を示し、UCF\_CC\_50 データセットの以前のベンチマークを上回っていることです。

要約(オリジナル)

Crowd counting has gained significant popularity due to its practical applications. However, mainstream counting methods ignore precise individual localization and suffer from annotation noise because of counting from estimating density maps. Additionally, they also struggle with high-density images.To address these issues, we propose an end-to-end model called Fine-Grained Extraction Network (FGENet). Different from methods estimating density maps, FGENet directly learns the original coordinate points that represent the precise localization of individuals.This study designs a fusion module, named Fine-Grained Feature Pyramid(FGFP), that is used to fuse feature maps extracted by the backbone of FGENet. The fused features are then passed to both regression and classification heads, where the former provides predicted point coordinates for a given image, and the latter determines the confidence level for each predicted point being an individual. At the end, FGENet establishes correspondences between prediction points and ground truth points by employing the Hungarian algorithm. For training FGENet, we design a robust loss function, named Three-Task Combination (TTC), to mitigate the impact of annotation noise. Extensive experiments are conducted on four widely used crowd counting datasets. Experimental results demonstrate the effectiveness of FGENet. Notably, our method achieves a remarkable improvement of 3.14 points in Mean Absolute Error (MAE) on the ShanghaiTech Part A dataset, showcasing its superiority over the existing state-of-the-art methods. Even more impressively, FGENet surpasses previous benchmarks on the UCF\_CC\_50 dataset with an astounding enhancement of 30.16 points in MAE.

arxiv情報

著者 Hao-Yuan Ma,Li Zhang,Xiang-Yi Wei
発行日 2024-01-02 13:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク