Text-based Person Search in Full Images via Semantic-Driven Proposal Generation


クエリ テキストを最大限に活用するために、セマンティック機能を活用して、テキストで記述された提案にさらに注意を払うように地域提案ネットワークに指示します。
提案された方法を検証するために、広く採用されている画像ベースの人物検索データセット CUHK-SYSU および PRW に基づく 2 つの大規模ベンチマーク データセットを収集し、注釈を付けます。
2 つのデータセットに対して包括的な実験が行われ、ベースライン手法と比較して、私たちの手法は最先端のパフォーマンスを達成しました。


Finding target persons in full scene images with a query of text description has important practical applications in intelligent video surveillance.However, different from the real-world scenarios where the bounding boxes are not available, existing text-based person retrieval methods mainly focus on the cross modal matching between the query text descriptions and the gallery of cropped pedestrian images. To close the gap, we study the problem of text-based person search in full images by proposing a new end-to-end learning framework which jointly optimize the pedestrian detection, identification and visual-semantic feature embedding tasks. To take full advantage of the query text, the semantic features are leveraged to instruct the Region Proposal Network to pay more attention to the text-described proposals. Besides, a cross-scale visual-semantic embedding mechanism is utilized to improve the performance. To validate the proposed method, we collect and annotate two large-scale benchmark datasets based on the widely adopted image-based person search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on the two datasets and compared with the baseline methods, our method achieves the state-of-the-art performance.


著者 Shizhou Zhang,De Cheng,Wenlong Luo,Yinghui Xing,Duo Long,Hao Li,Kai Niu,Guoqiang Liang,Yanning Zhang
発行日 2023-07-25 09:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク