要約
G2A-VReIDは、185,907の画像と5,576のトラックレットから構成され、2,788の異なるアイデンティティを持つ。これは185,907の画像と5,576のトラックレットから構成され、2,788の識別情報を持つ。G2A-VReIDデータセットには以下の特徴がある:1)急激な視界の変化、2)多数の注釈付きID、3)豊富な屋外シナリオ、4)解像度の大きな違い。さらに、我々は、クロスプラットフォームReIDのための新しいベンチマークアプローチを提案する。これは、クロスプラットフォームの視覚的アライメント問題を、視覚言語モデル(すなわちCLIP)による視覚的意味的アライメントに変換し、パラメータ効率の良いVideo Set-Level-Adapterモジュールを適用して、画像ベースの基礎モデルをビデオReIDタスクに適応させるもので、VSLA-CLIPと呼ぶ。さらに、プラットフォーム間の大きな不一致をさらに減らすために、効率的な視覚的特徴アライメントのためのプラットフォーム-ブリッジプロンプトを考案する。広範な実験により、既存の全てのビデオReIDデータセットと我々の提案するG2A-VReIDデータセットにおいて、提案手法の優位性が実証された。
要約(オリジナル)
In this paper, we construct a large-scale benchmark dataset for Ground-to-Aerial Video-based person Re-Identification, named G2A-VReID, which comprises 185,907 images and 5,576 tracklets, featuring 2,788 distinct identities. To our knowledge, this is the first dataset for video ReID under Ground-to-Aerial scenarios. G2A-VReID dataset has the following characteristics: 1) Drastic view changes; 2) Large number of annotated identities; 3) Rich outdoor scenarios; 4) Huge difference in resolution. Additionally, we propose a new benchmark approach for cross-platform ReID by transforming the cross-platform visual alignment problem into visual-semantic alignment through vision-language model (i.e., CLIP) and applying a parameter-efficient Video Set-Level-Adapter module to adapt image-based foundation model to video ReID tasks, termed VSLA-CLIP. Besides, to further reduce the great discrepancy across the platforms, we also devise the platform-bridge prompts for efficient visual feature alignment. Extensive experiments demonstrate the superiority of the proposed method on all existing video ReID datasets and our proposed G2A-VReID dataset.
arxiv情報
著者 | Shizhou Zhang,Wenlong Luo,De Cheng,Qingchun Yang,Lingyan Ran,Yinghui Xing,Yanning Zhang |
発行日 | 2024-09-03 02:50:56+00:00 |
arxivサイト | arxiv_id(pdf) |