要約
テキストベースの人物検索(TBPS)は、与えられた自然言語の記述に基づいて、大規模な画像ギャラリーから対象人物の画像を検索することを目的としている。既存の手法は、収集コストが非常に高い並列画像-テキストペアを用いた学習モデルが主流である。本論文では、並列画像-テキストデータを用いないTBPS($mu$-TBPS)を初めて試みる。この目的のために、我々は、まず各画像に対応する擬似テキストを生成し、次に教師付き検索を実行する、生成-その後-検索(GTR)という2段階の枠組みを提案する。生成段階では、人物画像の充実した説明を得るために、きめ細かな画像キャプション戦略を提案する。これはまず、きめ細かな人物属性をキャプチャして生成するために、あらかじめ訓練された既製の視覚言語モデルを起動するための一連の指示プロンプトを利用し、次に、きめ細かく調整された大規模言語モデルまたは手作りのテンプレートを介して、抽出された属性をテキスト説明に変換する。検索段階では、生成されたテキストのノイズ干渉を考慮し、より信頼性の高いテキストを学習により多く寄与させることで、信頼スコアベースの学習スキームを開発する。複数のTBPSベンチマーク(CUHK-PEDES, ICFG-PEDES, RSTPReid)を用いた実験の結果、提案GTRは並列画像テキストデータに依存することなく、有望な性能を達成できることが示された。
要約(オリジナル)
Text-based person search (TBPS) aims to retrieve the images of the target person from a large image gallery based on a given natural language description. Existing methods are dominated by training models with parallel image-text pairs, which are very costly to collect. In this paper, we make the first attempt to explore TBPS without parallel image-text data ($\mu$-TBPS), in which only non-parallel images and texts, or even image-only data, can be adopted. Towards this end, we propose a two-stage framework, generation-then-retrieval (GTR), to first generate the corresponding pseudo text for each image and then perform the retrieval in a supervised manner. In the generation stage, we propose a fine-grained image captioning strategy to obtain an enriched description of the person image, which firstly utilizes a set of instruction prompts to activate the off-the-shelf pretrained vision-language model to capture and generate fine-grained person attributes, and then converts the extracted attributes into a textual description via the finetuned large language model or the hand-crafted template. In the retrieval stage, considering the noise interference of the generated texts for training model, we develop a confidence score-based training scheme by enabling more reliable texts to contribute more during the training. Experimental results on multiple TBPS benchmarks (i.e., CUHK-PEDES, ICFG-PEDES and RSTPReid) show that the proposed GTR can achieve a promising performance without relying on parallel image-text data.
arxiv情報
著者 | Yang Bai,Jingyao Wang,Min Cao,Chen Chen,Ziqiang Cao,Liqiang Nie,Min Zhang |
発行日 | 2023-08-04 13:04:24+00:00 |
arxivサイト | arxiv_id(pdf) |