要約
タイトル:「Cross-modal Featureのテキストベースの人物検索におけるキャリブレーション」
要約:
– テキストキャプションを使用して、特定の人物を容易に検索できる、革新的かつ効果的なクロスモーダル特徴のキャリブレーション方法を提案する。
– デュアルエンコーダと取り外し可能なクロスモーダルデコーダのアーキテクチャで構成されているため、余分なマルチレベルブランチや複雑な相互作用モジュールをバックボーンに続くネックとして必要としない。そのため、デュアルエンコーダに基づく高速推論が可能である。
– 2つの新しい損失値で構成されており、細かいグレードのクロスモーダル特徴を提供する。Sew損失は、テキストキャプションの品質をガイドとして、画像とテキストの両方の特徴を整列させる。Masking Caption Modeling(MCM)損失は、マスクされたキャプション予測タスクを使用して、テキストと視覚的部分の詳細な一般的な関係を確立する。
– CUHK-PEDES、ICFG-PEDES、およびRSTPReIDの3つの人気ベンチマークでトップの結果を示した。特に、それらはランキング@1でそれぞれ73.81%、74.25%、および57.35%を達成した。
– 強力でスケーラブルなパラダイムとして、今後のテキストベースの人物検索の研究を簡素化するために堅固な基盤となることを望む。
要約(オリジナル)
We present a novel and effective method calibrating cross-modal features for text-based person search. Our method is cost-effective and can easily retrieve specific persons with textual captions. Specifically, its architecture is only a dual-encoder and a detachable cross-modal decoder. Without extra multi-level branches or complex interaction modules as the neck following the backbone, our model makes a high-speed inference only based on the dual-encoder. Besides, our method consists of two novel losses to provide fine-grained cross-modal features. A Sew loss takes the quality of textual captions as guidance and aligns features between image and text modalities. A Masking Caption Modeling (MCM) loss uses a masked captions prediction task to establish detailed and generic relationships between textual and visual parts. We show the top results in three popular benchmarks, including CUHK-PEDES, ICFG-PEDES, and RSTPReID. In particular, our method achieves 73.81% Rank@1, 74.25% Rank@1 and 57.35% Rank@1 on them, respectively. In addition, we also validate each component of our method with extensive experiments. We hope our powerful and scalable paradigm will serve as a solid baseline and help ease future research in text-based person search.
arxiv情報
著者 | Donglai Wei,Sipeng Zhang,Tong Yang,Jing Liu |
発行日 | 2023-04-05 07:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI