Robust Unsupervised Crowd Counting and Localization with Adaptive Resolution SAM

要約

既存の群衆カウント モデルには大規模なトレーニング データが必要であり、注釈を付けるには時間がかかります。
この問題に取り組むために、Segmentation Anything Model (SAM) を適応させた Segment-Everything-Everywhere Model (SEEM) を利用して、群衆カウント モデルをトレーニングするための疑似ラベルを生成する、シンプルでありながら効果的な群衆カウント方法を提案します。
ただし、私たちの最初の調査では、主に高密度エリアで多くの人が省略されるため、密集群シーンでの SEEM のパフォーマンスが制限されていることが明らかになりました。
この制限を克服するために、群衆シーン内のスケールの変動、オクルージョン、および人々の重なりを処理する適応解像度 SEEM を提案します。
これに加えて、予測された人物マスク内の頭の位置を予測するための、ガウス混合モデルに基づく堅牢な位置特定方法を導入します。
マスクとポイント擬似ラベルを考慮して、SEEM の予測に基づいて不確実な領域を除外するように設計された堅牢な損失関数を提案します。これにより、計数ネットワークのトレーニング プロセスが強化されます。
最後に、擬似ラベルを生成するための反復法を提案します。
この方法は、最初の疑似ラベリング段階で見逃されることが多い、高密度領域内のより小さな人物を識別することにより、セグメンテーション マスクの品質を向上させることを目的としています。
全体として、私たちが提案した方法は群衆カウントにおいて最高の教師なしパフォーマンスを達成すると同時に、一部の教師あり手法と同等の結果をもたらします。
これにより、特にラベル付きデータが利用できない状況において、群衆カウントのための非常に効果的かつ多用途なツールとなります。

要約(オリジナル)

The existing crowd counting models require extensive training data, which is time-consuming to annotate. To tackle this issue, we propose a simple yet effective crowd counting method by utilizing the Segment-Everything-Everywhere Model (SEEM), an adaptation of the Segmentation Anything Model (SAM), to generate pseudo-labels for training crowd counting models. However, our initial investigation reveals that SEEM’s performance in dense crowd scenes is limited, primarily due to the omission of many persons in high-density areas. To overcome this limitation, we propose an adaptive resolution SEEM to handle the scale variations, occlusions, and overlapping of people within crowd scenes. Alongside this, we introduce a robust localization method, based on Gaussian Mixture Models, for predicting the head positions in the predicted people masks. Given the mask and point pseudo-labels, we propose a robust loss function, which is designed to exclude uncertain regions based on SEEM’s predictions, thereby enhancing the training process of the counting networks. Finally, we propose an iterative method for generating pseudo-labels. This method aims at improving the quality of the segmentation masks by identifying more tiny persons in high-density regions, which are often missed in the first pseudo-labeling stage. Overall, our proposed method achieves the best unsupervised performance in crowd counting, while also being comparable results to some supervised methods. This makes it a highly effective and versatile tool for crowd counting, especially in situations where labeled data is not available.

arxiv情報

著者 Jia Wan,Qiangqiang Wu,Wei Lin,Antoni B. Chan
発行日 2024-02-27 13:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク