Deep Rank-Consistent Pyramid Model for Enhanced Crowd Counting

要約

従来の群衆カウント方法のほとんどは、完全教師あり学習フレームワークを利用して、シーン画像と群衆密度マップの間のマッピングを確立します。
通常、トレーニングの監視には、コストと時間のかかる大量のピクセルレベルのアノテーションに依存します。
集中的なラベル付け作業を軽減し、カウント精度を向上させる 1 つの方法は、ラベルのない大量の画像を活用することです。
これは、単一画像内に固有の自己構造情報とランクの一貫性があり、トレーニング中に追加の定性的な関係の監視が提供されるためです。
元の画像レベルでランク関係を利用した以前の方法とは対照的に、我々は潜在特徴空間内でそのようなランク一貫性関係を調査します。
このアプローチにより、多数のピラミッド部分次数を組み込むことが可能になり、モデル表現機能が強化されます。
注目すべき利点は、非標識サンプルの利用率も高めることができることです。
具体的には、Deep Rank-consistEnt pyrAmid Model (DREAM) を提案します。これは、潜在空間内の粗いから細かいピラミッド特徴にわたるランクの一貫性を最大限に利用して、大規模なラベルのない画像による群衆カウントを強化します。
さらに、トレーニング目的で 4,000 枚の画像からなる新しいラベルなしの群衆カウント データセット FUDAN-UCC を収集しました。
4 つのベンチマーク データセット、つまり UCF-QNRF、ShanghaiTech PartA および PartB、UCF-CC-50 での広範な実験により、以前の半教師あり手法と比較したこの手法の有効性が示されています。
コードは https://github.com/bridgeqiqi/DREAM で入手できます。

要約(オリジナル)

Most conventional crowd counting methods utilize a fully-supervised learning framework to establish a mapping between scene images and crowd density maps. They usually rely on a large quantity of costly and time-intensive pixel-level annotations for training supervision. One way to mitigate the intensive labeling effort and improve counting accuracy is to leverage large amounts of unlabeled images. This is attributed to the inherent self-structural information and rank consistency within a single image, offering additional qualitative relation supervision during training. Contrary to earlier methods that utilized the rank relations at the original image level, we explore such rank-consistency relation within the latent feature spaces. This approach enables the incorporation of numerous pyramid partial orders, strengthening the model representation capability. A notable advantage is that it can also increase the utilization ratio of unlabeled samples. Specifically, we propose a Deep Rank-consistEnt pyrAmid Model (DREAM), which makes full use of rank consistency across coarse-to-fine pyramid features in latent spaces for enhanced crowd counting with massive unlabeled images. In addition, we have collected a new unlabeled crowd counting dataset, FUDAN-UCC, comprising 4,000 images for training purposes. Extensive experiments on four benchmark datasets, namely UCF-QNRF, ShanghaiTech PartA and PartB, and UCF-CC-50, show the effectiveness of our method compared with previous semi-supervised methods. The codes are available at https://github.com/bridgeqiqi/DREAM.

arxiv情報

著者 Jiaqi Gao,Zhizhong Huang,Yiming Lei,Hongming Shan,James Z. Wang,Fei-Yue Wang,Junping Zhang
発行日 2023-11-22 11:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク