要約
群衆計測の主流は、通常、畳み込みニューラルネットワーク(CNN)を利用して密度マップを回帰させるもので、ポイントレベルのアノテーションが必要である。しかし、各人物に点レベルのアノテーションを付与することは、高価で手間のかかる作業である。また、テスト段階では、点レベルのアノテーションは計数精度を評価するために考慮されないため、点レベルのアノテーションは冗長であることになる。したがって、より経済的なラベリング方法であるカウントレベルのアノテーションにのみ依存する弱教師付き計数法の開発が望まれる。現在の弱教師付き計数法は、CNN を用いて群衆の総計を画像から計数へのパラダイムで回帰させる方法を採用している。しかし、文脈をモデル化するための受容域が限られていることは、これらの弱教師付きCNNベースの手法の本質的な限界である。したがって、これらの手法は満足な性能を得ることができず、実世界での応用は限定的である。変換器は自然言語処理(NLP)において一般的な配列間予測モデルであり、グローバルな受容野を含んでいる。本論文では、弱教師付き群衆計数問題を、トランスフォーマーに基づくsequence-to-countの観点から再定式化したTransCrowdを提案する。提案するTransCrowdは、トランスフォーマーの自己注視機構を利用することで、意味的な群衆情報を効果的に抽出できることを観測する。我々の知る限り、これは群衆計数研究に純粋なトランスフォーマーを採用した最初の研究である。5つのベンチマークデータセットでの実験により、提案するTransCrowdは、弱教師付きCNNベースの計数手法と比較して優れた性能を達成し、いくつかの一般的な完全教師付き計数手法と比較して高い競争力を獲得することが実証される。
要約(オリジナル)
The mainstream crowd counting methods usually utilize the convolution neural network (CNN) to regress a density map, requiring point-level annotations. However, annotating each person with a point is an expensive and laborious process. During the testing phase, the point-level annotations are not considered to evaluate the counting accuracy, which means the point-level annotations are redundant. Hence, it is desirable to develop weakly-supervised counting methods that just rely on count-level annotations, a more economical way of labeling. Current weakly-supervised counting methods adopt the CNN to regress a total count of the crowd by an image-to-count paradigm. However, having limited receptive fields for context modeling is an intrinsic limitation of these weakly-supervised CNN-based methods. These methods thus cannot achieve satisfactory performance, with limited applications in the real world. The transformer is a popular sequence-to-sequence prediction model in natural language processing (NLP), which contains a global receptive field. In this paper, we propose TransCrowd, which reformulates the weakly-supervised crowd counting problem from the perspective of sequence-to-count based on transformers. We observe that the proposed TransCrowd can effectively extract the semantic crowd information by using the self-attention mechanism of transformer. To the best of our knowledge, this is the first work to adopt a pure transformer for crowd counting research. Experiments on five benchmark datasets demonstrate that the proposed TransCrowd achieves superior performance compared with all the weakly-supervised CNN-based counting methods and gains highly competitive counting performance compared with some popular fully-supervised counting methods.
arxiv情報
| 著者 | Dingkang Liang,Xiwu Chen,Wei Xu,Yu Zhou,Xiang Bai |
| 発行日 | 2022-09-08 07:08:18+00:00 |
| arxivサイト | arxiv_id(pdf) |