要約
特定の人物の検索には大きな社会的利点とセキュリティ上の価値があり、多くの場合、視覚情報と文字情報の組み合わせが必要になります。
従来の人物検索方法は、画像ベースであろうとテキストベースであろうと、通常、両方の種類の情報を効果的に活用するには不十分であり、精度の低下につながります。
本稿では、対象人物検索に画像情報とテキスト情報の両方を併用する、合成人物検索(CPR)と呼ばれる全く新しいタスクを提案する。
ただし、教師あり CPR には非常に高価な手動アノテーション データセットが必要ですが、現在利用可能なリソースはありません。
この問題を軽減するために、まずゼロショット構成人物検索 (ZS-CPR) を導入します。これは、既存のドメイン関連データを活用して、高価なアノテーションを使用せずに CPR 問題を解決します。
次に、ZS-CPR モデルを学習するために、軽量の Textual Inversion Network (TINet) と、微調整された対照言語画像事前トレーニングに基づくテキストベースの人物検索モデルを使用する 2 段階の学習フレームワーク Word4Per を提案します (
CLIP) ネットワークは、CPR データを利用せずに学習されます。
3 番目に、提案されている Word4Per フレームワークのパフォーマンスを評価するためのベンチマークとして、細かく注釈が付けられた Image-Text Composited People Retrieval (ITCPR) データセットが構築されます。
Rank-1 と mAP の両方での広範な実験により、ZS-CPR タスクに対する Word4Per の有効性が実証され、比較手法を 10\% 以上上回りました。
コードと ITCPR データセットは https://github.com/Delong-liu-bupt/Word4Per で公開されます。
要約(オリジナル)
Searching for specific person has great social benefits and security value, and it often involves a combination of visual and textual information. Conventional person retrieval methods, whether image-based or text-based, usually fall short in effectively harnessing both types of information, leading to the loss of accuracy. In this paper, a whole new task called Composed Person Retrieval (CPR) is proposed to jointly utilize both image and text information for target person retrieval. However, the supervised CPR requires very costly manual annotation dataset, while there are currently no available resources. To mitigate this issue, we firstly introduce the Zero-shot Composed Person Retrieval (ZS-CPR), which leverages existing domain-related data to resolve the CPR problem without expensive annotations. Secondly, to learn ZS-CPR model, we propose a two-stage learning framework, Word4Per, where a lightweight Textual Inversion Network (TINet) and a text-based person retrieval model based on fine-tuned Contrastive Language-Image Pre-training (CLIP) network are learned without utilizing any CPR data. Thirdly, a finely annotated Image-Text Composed Person Retrieval (ITCPR) dataset is built as the benchmark to assess the performance of the proposed Word4Per framework. Extensive experiments under both Rank-1 and mAP demonstrate the effectiveness of Word4Per for the ZS-CPR task, surpassing the comparative methods by over 10\%. The code and ITCPR dataset will be publicly available at https://github.com/Delong-liu-bupt/Word4Per.
arxiv情報
著者 | Delong Liu,Haiwen Li,Zhicheng Zhao,Fei Su,Yuan Dong |
発行日 | 2024-11-25 18:11:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google