Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

要約

この論文では、MALS と呼ばれる、テキストベースの人物検索のための大規模な複数属性および言語検索データセットを紹介し、属性認識と画像とテキストのマッチング タスクの両方について事前トレーニングを一石で実行する実現可能性を検討します。
特に、MALS には 1,510,330 個の画像とテキストのペアが含まれており、これは一般的な CUHK-PEDES の約 37.5 倍であり、すべての画像には 27 の属性の注釈が付けられています。
プライバシーの懸念とアノテーションのコストを考慮して、既製の拡散モデルを活用してデータセットを生成します。
生成されたデータからの学習の実現可能性を検証するために、属性とテキストの間の共有知識を考慮して、新しい統合属性プロンプト学習とテキスト マッチング学習 (APTM) フレームワークを開発します。
名前が示すように、APTM には属性プロンプト学習ストリームとテキスト マッチング学習ストリームが含まれています。
(1) 属性プロンプト学習は、画像属性の位置合わせに属性プロンプトを活用し、テキスト マッチング学習を強化します。
(2) テキストマッチング学習により、詳細な表現学習が促進され、属性プロンプト学習が促進されます。
広範な実験により、MALS での事前トレーニングの有効性が検証され、3 つの困難な現実世界のベンチマークで APTM を介した最先端の検索パフォーマンスが達成されました。
特に、APTM は、CUHK-PEDES、ICFG-PEDES、および RSTPReid データセットで、それぞれ +6.60%、+7.39%、および +15.90% の Recall@1 精度の一貫した改善を明確なマージンで達成します。

要約(オリジナル)

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.60%, +7.39%, and +15.90% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.

arxiv情報

著者 Shuyu Yang,Yinan Zhou,Yaxiong Wang,Yujiao Wu,Li Zhu,Zhedong Zheng
発行日 2023-06-06 06:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク