要約
堅牢なクロスモーダル機能で知られる視覚言語モデルは、さまざまなコンピュータービジョンタスクに広く適用されています。
この論文では、大規模な画像テキストペアで前提とされた視覚的およびテキストの特徴を調整するために、大規模な画像テキストペアに前提とした視覚言語モデルであるクリップ(コントラスト言語イメージの前oraining)の使用を探ります。
一般化可能な人の再識別。
タスクへのクリップの適応は、2つの主要な課題を提示します。差別的能力を高めるためのより微細な機能を学習し、モデルの一般化機能を改善するためのよりドメイン不変の機能を学習することです。
最初の課題を緩和するために、微調整された機能を学習する能力を高めるために、テキストの説明の精度を高めるために3段階の戦略が提案されています。
当初、画像エンコーダーは、人の再識別タスクに効果的に適応するようにトレーニングされています。
第2段階では、画像エンコーダーによって抽出された機能を使用して、各画像のテキストの説明(つまり、プロンプト)を生成します。
最後に、学習されたプロンプトを備えたテキストエンコーダーが使用され、最終画像エンコーダーのトレーニングをガイドします。
モデルの一般化機能を目に見えないドメインに強化するために、ドメインに不変の画像機能を学習するために、双方向ガイド方法が導入されています。
具体的には、ドメインインヴァリアントおよびドメイン関連プロンプトが生成され、正の(画像機能とドメイン不変プロンプトをまとめる)とネガティブ(画像機能とドメイン関連プロンプトの引き離し)ビューの両方が画像エンコーダーのトレーニングに使用されます。
まとめて、これらの戦略は、微粒子の一般化された機能を直接再識別するための革新的なクリップベースのフレームワークの開発に貢献しています。
要約(オリジナル)
The Visual Language Model, known for its robust cross-modal capabilities, has been extensively applied in various computer vision tasks. In this paper, we explore the use of CLIP (Contrastive Language-Image Pretraining), a vision-language model pretrained on large-scale image-text pairs to align visual and textual features, for acquiring fine-grained and domain-invariant representations in generalizable person re-identification. The adaptation of CLIP to the task presents two primary challenges: learning more fine-grained features to enhance discriminative ability, and learning more domain-invariant features to improve the model’s generalization capabilities. To mitigate the first challenge thereby enhance the ability to learn fine-grained features, a three-stage strategy is proposed to boost the accuracy of text descriptions. Initially, the image encoder is trained to effectively adapt to person re-identification tasks. In the second stage, the features extracted by the image encoder are used to generate textual descriptions (i.e., prompts) for each image. Finally, the text encoder with the learned prompts is employed to guide the training of the final image encoder. To enhance the model’s generalization capabilities to unseen domains, a bidirectional guiding method is introduced to learn domain-invariant image features. Specifically, domain-invariant and domain-relevant prompts are generated, and both positive (pulling together image features and domain-invariant prompts) and negative (pushing apart image features and domain-relevant prompts) views are used to train the image encoder. Collectively, these strategies contribute to the development of an innovative CLIP-based framework for learning fine-grained generalized features in person re-identification.
arxiv情報
著者 | Huazhong Zhao,Lei Qi,Xin Geng |
発行日 | 2025-01-27 14:08:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google