Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

要約

本論文では、テキストベースの人物検索のための大規模なMulti-Attribute and Language Searchデータセット(MALS)を紹介し、属性認識と画像-テキストマッチングの両タスクを一度に事前学習することの実現可能性を探る。特に、MALSは1,510,330の画像-テキストペアを含み、これは実勢CUHK-PEDESの約37.5倍であり、全ての画像は27の属性でアノテーションされています。プライバシーやアノテーションのコストを考慮し、既製の拡散モデルを利用してデータセットを作成しました。生成されたデータから学習することの可能性を検証するために、属性とテキスト間の共有知識を考慮した、新しいジョイント属性プロンプト学習とテキストマッチング学習(APTM)フレームワークを開発する。APTMは、その名の通り、属性プロンプト学習ストリームとテキストマッチング学習ストリームを含んでいる。(1) 属性プロンプト学習では、画像と属性の位置合わせのための属性プロンプトを活用し、テキストマッチング学習を強化する。(2) テキストマッチング学習により、細部の表現学習が促進され、属性プロンプト学習が促進される。広範な実験により、MALSの事前学習の有効性が検証され、3つの困難な実世界のベンチマークにおいてAPTMによる最先端の検索性能が達成された。特に、APTMはCUHK-PEDES、ICFG-PEDES、RSTPReidデータセットにおいて、それぞれ+6.60%、+7.39%、+15.90%のRecall@1精度の一貫した向上を達成し、圧倒的な差をつけた。

要約(オリジナル)

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.60%, +7.39%, and +15.90% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.

arxiv情報

著者 Shuyu Yang,Yinan Zhou,Yaxiong Wang,Yujiao Wu,Li Zhu,Zhedong Zheng
発行日 2023-06-05 14:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク