要約
タイトル:Pedestrian Attribute RecognitionのためのTransformerベースのマルチタスクネットワーク、PARFormer
要約:
– 研究の背景:Pedestrian Attribute Recognition(PAR)は、ビデオ監視や歩行者解析など、多岐にわたる応用があるため、注目を集めている。このタスクでのロバストな特徴表現の抽出は、主要な課題の1つである。
– 問題点:従来の方法は、主に畳み込みニューラルネットワーク(CNN)をバックボーンネットワークとして使用し、小さな識別的領域に焦点を当てているが、大局的な視点を無視している。
– 提案:PARFormerは、純粋にTransformerベースのマルチタスクPARネットワークであり、4つのモジュールから構成される。フィーチャー抽出モジュールでは、競合力のある結果を示すTransformerベースの強力なベースラインを構築する。フィーチャー処理モジュールでは、ランダムパッチの注意深い特徴学習を強化する効果的なデータ拡張戦略「batch random mask (BRM) block」を提案する。さらに、属性表現の間の相互属性差別性を強化するために、マルチ属性センターロス(MACL)を提案する。視点知覚モジュールでは、視点がPedestrian Attributesに与える影響を探究し、視点情報を利用するための多視点対照的ロス(MCVL)を提案する。属性認識モジュールでは、属性の負の正の不均衡問題を軽減し、属性予測を生成する。
– 結果:上記のモジュールは相互作用し、高い差別化特徴空間を共同学習し、最終的な特徴の生成を監視する。広範な実験結果により、提案されたPARFormerネットワークは、PETA、RAP、PA100Kなど、いくつかの公開データセットにおいて、最先端の方法と比較して優れたパフォーマンスを発揮することが示される。コードはhttps://github.com/xwf199/PARFormerで公開される予定である。
要約(オリジナル)
Pedestrian attribute recognition (PAR) has received increasing attention because of its wide application in video surveillance and pedestrian analysis. Extracting robust feature representation is one of the key challenges in this task. The existing methods mainly use the convolutional neural network (CNN) as the backbone network to extract features. However, these methods mainly focus on small discriminative regions while ignoring the global perspective. To overcome these limitations, we propose a pure transformer-based multi-task PAR network named PARFormer, which includes four modules. In the feature extraction module, we build a transformer-based strong baseline for feature extraction, which achieves competitive results on several PAR benchmarks compared with the existing CNN-based baseline methods. In the feature processing module, we propose an effective data augmentation strategy named batch random mask (BRM) block to reinforce the attentive feature learning of random patches. Furthermore, we propose a multi-attribute center loss (MACL) to enhance the inter-attribute discriminability in the feature representations. In the viewpoint perception module, we explore the impact of viewpoints on pedestrian attributes, and propose a multi-view contrastive loss (MCVL) that enables the network to exploit the viewpoint information. In the attribute recognition module, we alleviate the negative-positive imbalance problem to generate the attribute predictions. The above modules interact and jointly learn a highly discriminative feature space, and supervise the generation of the final features. Extensive experimental results show that the proposed PARFormer network performs well compared to the state-of-the-art methods on several public datasets, including PETA, RAP, and PA100K. Code will be released at https://github.com/xwf199/PARFormer.
arxiv情報
著者 | Xinwen Fan,Yukang Zhang,Yang Lu,Hanzi Wang |
発行日 | 2023-04-14 16:27:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI