Prompt Decoupling for Text-to-Image Person Re-identification

要約

テキストから画像への人物再識別(TIReID)は、テキスト記述クエリを介して画像ギャラリーからターゲット人物を検索することを目的としている。近年、CLIPのような事前に学習された視覚言語モデルが大きな注目を集めており、意味的概念学習や豊富なマルチモーダル知識に対するロバストな能力により、このタスクに広く利用されている。しかし、最近のCLIPベースのTIReID手法は、一般的にCLIPモデルをTIReIDタスクに適応させるために、ネットワーク全体の直接的な微調整に依存している。これらの手法はこのトピックにおいて競争力のある性能を示すが、ドメイン適応とタスク適応を同時に行う必要があるため、最適とは言えない。この問題に対処するため、我々は学習段階でこれら2つのプロセスを切り離すことを試みる。具体的には、ドメイン適応を可能にするプロンプトチューニング戦略を導入し、ドメイン適応とタスク適応を切り離す2段階のトレーニングアプローチを提案する。第一段階では、CLIPの2つのエンコーダを凍結し、CLIPのオリジナル学習データと下流タスクとの間のドメインギャップを緩和するために、プロンプトの最適化のみに集中する。第二段階では、固定されたプロンプトを維持し、TIReIDタスクに適したきめ細かな情報を優先的に取り込むようにCLIPモデルを微調整する。最後に、広く利用されている3つのデータセットを用いて、本手法の有効性を評価する。直接的に微調整されたアプローチと比較して、本手法は大幅な改善を達成した。

要約(オリジナル)

Text-to-image person re-identification (TIReID) aims to retrieve the target person from an image gallery via a textual description query. Recently, pre-trained vision-language models like CLIP have attracted significant attention and have been widely utilized for this task due to their robust capacity for semantic concept learning and rich multi-modal knowledge. However, recent CLIP-based TIReID methods commonly rely on direct fine-tuning of the entire network to adapt the CLIP model for the TIReID task. Although these methods show competitive performance on this topic, they are suboptimal as they necessitate simultaneous domain adaptation and task adaptation. To address this issue, we attempt to decouple these two processes during the training stage. Specifically, we introduce the prompt tuning strategy to enable domain adaptation and propose a two-stage training approach to disentangle domain adaptation from task adaptation. In the first stage, we freeze the two encoders from CLIP and solely focus on optimizing the prompts to alleviate domain gap between the original training data of CLIP and downstream tasks. In the second stage, we maintain the fixed prompts and fine-tune the CLIP model to prioritize capturing fine-grained information, which is more suitable for TIReID task. Finally, we evaluate the effectiveness of our method on three widely used datasets. Compared to the directly fine-tuned approach, our method achieves significant improvements.

arxiv情報

著者 Weihao Li,Lei Tan,Pingyang Dai,Yan Zhang
発行日 2024-01-04 09:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク