$CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models

要約

群衆計数は群衆分析における基本的な問題であり、一般的には群衆密度マップを推定し、密度値を合計することで達成される。しかし、このアプローチは、グラウンドトゥルースの密度マップを作成するために広いガウシアンカーネルを使用するため、バックグラウンドノイズの蓄積と密度の損失に悩まされる。この問題は、ガウシアンカーネルを狭くすることで克服できる。しかし、既存のアプローチは、広いカーネルを持つグラウンドトゥルース密度マップを用いて訓練した場合、性能が低い。この限界に対処するため、我々は密度マップを予測するために条件付き拡散モデルを用いることを提案する。これにより、群衆密度マップを逆拡散過程として生成する$CrowdDiff$を提案する。さらに、拡散過程の中間時間ステップはノイズが多いため、学習時のみ群衆を直接推定する回帰分岐を組み込み、特徴学習を改善する。さらに、拡散モデルの確率的性質により、既存の群衆計数パイプラインとは逆に、計数性能を向上させるために、複数の密度マップを生成することを導入する。本手法の有効性を検証するために、一般に公開されているデータセットを用いて広範な実験を行った。CrowdDiff$は、いくつかの公開群衆分析ベンチマークにおいて、既存の最先端群衆計数法を凌駕し、有意な改善を示した。

要約(オリジナル)

Crowd counting is a fundamental problem in crowd analysis which is typically accomplished by estimating a crowd density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with ground truth density maps with broad kernels. To deal with this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models show high fidelity to training data during generation. With that, we present $CrowdDiff$ that generates the crowd density map as a reverse diffusion process. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. We conduct extensive experiments on publicly available datasets to validate the effectiveness of our method. $CrowdDiff$ outperforms existing state-of-the-art crowd counting methods on several public crowd analysis benchmarks with significant improvements.

arxiv情報

著者 Yasiru Ranasinghe,Nithin Gopalakrishnan Nair,Wele Gedara Chaminda Bandara,Vishal M. Patel
発行日 2024-04-04 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク