An End-to-End Transformer Model for Crowd Localization

要約

群衆の位置を予測する群衆定位は、単に数を数えるよりも実用的で高度なタスクである。既存の手法は、擬似バウンディングボックスやあらかじめ設計されたローカライズマップを用い、頭部位置を得るために複雑な後処理に依存している。本論文では、回帰に基づくパラダイムでタスクを解決するCLTRと名付けられたエレガントでエンドツーエンドの群衆定位変換器を提案する。提案手法は群衆局在を直接集合予測問題として捉え、抽出された特徴量と学習可能な埋め込みを変換器-復号器の入力とする。曖昧な点を減らし、より合理的なマッチング結果を生成するために、近傍コンテキストを補助的なマッチングコストとして採用するKMOベースのハンガリー語マッチャーを導入する。様々なデータ設定の5つのデータセットに対して行った広範な実験により、本手法の有効性を示す。特に、NWPU-Crowd、UCF-QNRF、ShanghaiTech Part Aの各データセットにおいて、提案手法は最高のローカライズ性能を達成することができた。

要約(オリジナル)

Crowd localization, predicting head positions, is a more practical and high-level task than simply counting. Existing methods employ pseudo-bounding boxes or pre-designed localization maps, relying on complex post-processing to obtain the head positions. In this paper, we propose an elegant, end-to-end Crowd Localization Transformer named CLTR that solves the task in the regression-based paradigm. The proposed method views the crowd localization as a direct set prediction problem, taking extracted features and trainable embeddings as input of the transformer-decoder. To reduce the ambiguous points and generate more reasonable matching results, we introduce a KMO-based Hungarian matcher, which adopts the nearby context as the auxiliary matching cost. Extensive experiments conducted on five datasets in various data settings show the effectiveness of our method. In particular, the proposed method achieves the best localization performance on the NWPU-Crowd, UCF-QNRF, and ShanghaiTech Part A datasets.

arxiv情報

著者 Dingkang Liang,Wei Xu,Xiang Bai
発行日 2022-08-08 10:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク