Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval

要約

人の検索は注目の高まりを引き付けました。
既存の方法は、主に2つの検索モード、つまり画像のみとテキストのみに分割されます。
ただし、利用可能な情報を最大限に活用することができず、多様なアプリケーション要件を満たすことは困難です。
上記の制限に対処するために、視覚的なクエリとテキストのクエリを組み合わせて、大規模な人の画像データベースから関心のある個人を識別する新しい構成者検索(CPR)タスクを提案します。
それにもかかわらず、CPRタスクの最大の難しさは、利用可能な注釈付きデータセットがないことです。
したがって、まず、スケーラブルな自動データ合成パイプラインを導入します。これにより、複雑なマルチモーダルデータ生成がテキスト象限の作成に分解され、その後に微調整された生成モデルを使用したアイデンティティ配置画像合成が行われます。
一方、マルチモーダルフィルタリング方法は、結果として得られるSyncprデータセットが115万の高品質で完全な合成トリプレットを保持するように設計されています。
さらに、構成された人クエリの表現を改善するために、細粒の動的アライメントとマスクされた特徴の推論を介して、新しい微細粒度適応機能アライメント(FAFA)フレームワークを提案します。
さらに、客観的な評価のために、画像テキストの構成人の検索(ITCPR)テストセットに手動で注釈を付けます。
広範な実験は、最先端の方法と比較した場合、SYNCPRデータセットの有効性と提案されたFAFAフレームワークの優位性を示しています。
すべてのコードとデータは、https://github.com/delong-liu-bupt/composed_person_retrievalで提供されます。

要約(オリジナル)

Person retrieval has attracted rising attention. Existing methods are mainly divided into two retrieval modes, namely image-only and text-only. However, they are unable to make full use of the available information and are difficult to meet diverse application requirements. To address the above limitations, we propose a new Composed Person Retrieval (CPR) task, which combines visual and textual queries to identify individuals of interest from large-scale person image databases. Nevertheless, the foremost difficulty of the CPR task is the lack of available annotated datasets. Therefore, we first introduce a scalable automatic data synthesis pipeline, which decomposes complex multimodal data generation into the creation of textual quadruples followed by identity-consistent image synthesis using fine-tuned generative models. Meanwhile, a multimodal filtering method is designed to ensure the resulting SynCPR dataset retains 1.15 million high-quality and fully synthetic triplets. Additionally, to improve the representation of composed person queries, we propose a novel Fine-grained Adaptive Feature Alignment (FAFA) framework through fine-grained dynamic alignment and masked feature reasoning. Moreover, for objective evaluation, we manually annotate the Image-Text Composed Person Retrieval (ITCPR) test set. The extensive experiments demonstrate the effectiveness of the SynCPR dataset and the superiority of the proposed FAFA framework when compared with the state-of-the-art methods. All code and data will be provided at https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.

arxiv情報

著者 Delong Liu,Haiwen Li,Zhaohui Hou,Zhicheng Zhao,Fei Su,Yuan Dong
発行日 2025-05-20 16:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR パーマリンク