要約
信頼性の高い群衆計数モデルをトレーニングするための重いアノテーションの負担を軽減し、より多くのデータから恩恵を受けることができるようにしてモデルをより実用的かつ正確なものにするために、この論文では、平均教師フレームワークに基づく新しい半教師あり手法を紹介します。
利用可能なラベル付きデータが不足している場合、モデルはローカル パッチをオーバーフィットする傾向があります。
このような状況では、ラベルなしのデータを通じてローカル パッチ予測の精度を向上させるだけの従来のアプローチでは不十分であることがわかります。
したがって、モデルの本質的な「部分化」機能を促進するという、より微妙なアプローチを提案します。
この機能により、モデルは群衆シーンの理解を活用し、人間の認知プロセスを反映して、領域内のカウントを正確に推定できるようになります。
この目標を達成するために、ラベルのないデータにマスキングを適用し、全体的な手がかりに基づいてこれらのマスクされたパッチの予測を行うようにモデルを導きます。
さらに、特徴の学習を支援するために、ここではきめの細かい密度分類タスクを組み込みます。
私たちの方法は一般的であり、厳密な構造や損失の制約がないため、ほとんどの既存の群衆カウント方法に適用できます。
さらに、フレームワークでトレーニングされたモデルが「準化」のような動作を示すことが観察されます。
「一目」だけで低密度領域を正確に予測し、局所的な詳細を組み込んで高密度領域を予測します。
私たちの手法は、ShanghaiTech A や UCF-QNRF などの難しいベンチマークにおいて、以前のアプローチを大幅に上回り、最先端のパフォーマンスを実現します。
コードは https://github.com/cha15yq/MRC-Crowd で入手できます。
要約(オリジナル)
To alleviate the heavy annotation burden for training a reliable crowd counting model and thus make the model more practicable and accurate by being able to benefit from more data, this paper presents a new semi-supervised method based on the mean teacher framework. When there is a scarcity of labeled data available, the model is prone to overfit local patches. Within such contexts, the conventional approach of solely improving the accuracy of local patch predictions through unlabeled data proves inadequate. Consequently, we propose a more nuanced approach: fostering the model’s intrinsic ‘subitizing’ capability. This ability allows the model to accurately estimate the count in regions by leveraging its understanding of the crowd scenes, mirroring the human cognitive process. To achieve this goal, we apply masking on unlabeled data, guiding the model to make predictions for these masked patches based on the holistic cues. Furthermore, to help with feature learning, herein we incorporate a fine-grained density classification task. Our method is general and applicable to most existing crowd counting methods as it doesn’t have strict structural or loss constraints. In addition, we observe that the model trained with our framework exhibits a ‘subitizing’-like behavior. It accurately predicts low-density regions with only a ‘glance’, while incorporating local details to predict high-density regions. Our method achieves the state-of-the-art performance, surpassing previous approaches by a large margin on challenging benchmarks such as ShanghaiTech A and UCF-QNRF. The code is available at: https://github.com/cha15yq/MRC-Crowd.
arxiv情報
著者 | Yifei Qian,Xiaopeng Hong,Ognjen Arandjelović,Zhongliang Guo,Carl R. Donovan |
発行日 | 2023-10-23 14:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google