CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels

要約

CLIP などの事前トレーニング済みの視覚言語モデルは、最近、画像の分類やセグメンテーションなど、さまざまなダウンストリーム タスクで優れたパフォーマンスを示しています。
ただし、きめの細かい画像の再識別 (ReID) では、ラベルはインデックスであり、具体的なテキストの説明がありません。
したがって、そのようなモデルをこれらのタスクにどのように適用できるかは、まだ決定されていません。
この論文ではまず、CLIP の画像エンコーダーによって初期化された視覚モデルを微調整するだけで、さまざまな ReID タスクで競争力のあるパフォーマンスが得られることがわかりました。
次に、より良い視覚的表現を促進するための 2 段階の戦略を提案します。
重要なアイデアは、各 ID の一連の学習可能なテキスト トークンを介して CLIP のクロスモーダル記述機能を十分に活用し、それらをテキスト エンコーダーに渡してあいまいな記述を形成することです。
最初のトレーニング段階では、CLIP の画像とテキストのエンコーダーは固定されたままになり、バッチ内で計算されたコントラスト損失によって、テキスト トークンのみが最初から最適化されます。
第 2 段階では、ID 固有のテキスト トークンとそのエンコーダーが静的になり、画像エンコーダーを微調整するための制約が提供されます。
下流のタスクで設計された損失の助けを借りて、イメージ エンコーダーは特徴埋め込みでデータをベクトルとして正確に表すことができます。
提案された戦略の有効性は、人または車両の ReID タスクのいくつかのデータセットで検証されます。
コードは https://github.com/Syliz517/CLIP-ReID で入手できます。

要約(オリジナル)

Pre-trained vision-language models like CLIP have recently shown superior performances on various downstream tasks, including image classification and segmentation. However, in fine-grained image re-identification (ReID), the labels are indexes, lacking concrete text descriptions. Therefore, it remains to be determined how such models could be applied to these tasks. This paper first finds out that simply fine-tuning the visual model initialized by the image encoder in CLIP, has already obtained competitive performances in various ReID tasks. Then we propose a two-stage strategy to facilitate a better visual representation. The key idea is to fully exploit the cross-modal description ability in CLIP through a set of learnable text tokens for each ID and give them to the text encoder to form ambiguous descriptions. In the first training stage, image and text encoders from CLIP keep fixed, and only the text tokens are optimized from scratch by the contrastive loss computed within a batch. In the second stage, the ID-specific text tokens and their encoder become static, providing constraints for fine-tuning the image encoder. With the help of the designed loss in the downstream task, the image encoder is able to represent data as vectors in the feature embedding accurately. The effectiveness of the proposed strategy is validated on several datasets for the person or vehicle ReID tasks. Code is available at https://github.com/Syliz517/CLIP-ReID.

arxiv情報

著者 Siyuan Li,Li Sun,Qingli Li
発行日 2022-11-29 13:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク