Text-based Person Search in Full Images via Semantic-Driven Proposal Generation

要約

テキスト説明のクエリを使用してシーン全体の画像から対象人物を検索することは、インテリジェントなビデオ監視において重要な実用的用途を持ちます。ただし、境界ボックスが利用できない現実世界のシナリオとは異なり、既存のテキストベースの人物検索方法は主に、
クエリテキストの説明とトリミングされた歩行者画像のギャラリー間のクロスモーダルマッチング。
このギャップを埋めるために、歩行者の検出、識別、および視覚的意味論的特徴の埋め込みタスクを共同で最適化する新しいエンドツーエンドの学習フレームワークを提案することにより、完全な画像におけるテキストベースの人物検索の問題を研究します。
クエリ テキストを最大限に活用するために、セマンティック機能を活用して、テキストで記述された提案にさらに注意を払うように地域提案ネットワークに指示します。
さらに、パフォーマンスを向上させるために、クロススケールの視覚的意味埋め込みメカニズムが利用されています。
提案された方法を検証するために、広く採用されている画像ベースの人物検索データセット CUHK-SYSU および PRW に基づく 2 つの大規模ベンチマーク データセットを収集し、注釈を付けます。
2 つのデータセットに対して包括的な実験が行われ、ベースライン手法と比較して、私たちの手法は最先端のパフォーマンスを達成しました。

要約(オリジナル)

Finding target persons in full scene images with a query of text description has important practical applications in intelligent video surveillance.However, different from the real-world scenarios where the bounding boxes are not available, existing text-based person retrieval methods mainly focus on the cross modal matching between the query text descriptions and the gallery of cropped pedestrian images. To close the gap, we study the problem of text-based person search in full images by proposing a new end-to-end learning framework which jointly optimize the pedestrian detection, identification and visual-semantic feature embedding tasks. To take full advantage of the query text, the semantic features are leveraged to instruct the Region Proposal Network to pay more attention to the text-described proposals. Besides, a cross-scale visual-semantic embedding mechanism is utilized to improve the performance. To validate the proposed method, we collect and annotate two large-scale benchmark datasets based on the widely adopted image-based person search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on the two datasets and compared with the baseline methods, our method achieves the state-of-the-art performance.

arxiv情報

著者 Shizhou Zhang,De Cheng,Wenlong Luo,Yinghui Xing,Duo Long,Hao Li,Kai Niu,Guoqiang Liang,Yanning Zhang
発行日 2023-07-25 09:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク