Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification

要約

テキストから画像への人物再識別 (TIReID) は、クエリ テキストに基づいて同じ身元の歩行者画像を取得します。
ただし、TIReID の既存の方法は通常、これを 1 対 1 の画像とテキストのマッチング問題として扱い、ビュー内の画像とテキストのペア間の関係のみに焦点を当てています。
同じ ID に基づくビュー間での画像とテキストのペア間の多対多のマッチングは考慮されていません。これが、既存のメソッドのパフォーマンスが低下する主な理由の 1 つです。
この目的を達成するために、新しい観点から両方のモダリティの包括的な表現を学習することによって、同じアイデンティティの多対多の対応をモデル化するための、LCR$^2$S と呼ばれるシンプルかつ効果的なフレームワークを提案します。
同じアイデンティティの下で他の画像(テキスト)を使用して各画像(テキスト)のサポートセットを構築し、画像(テキスト)とそのサポートセットを融合するマルチヘッド注意融合モジュールを設計します。
結果として得られる強化された画像とテキストの特徴は、複数のビューからの情報を融合し、多対多の対応を備えた「より豊富な」TIReID モデルをトレーニングするように調整されます。
推論中はサポート セットが利用できないため、「より豊富な」モデルによって学習された知識を、単一の画像/テキストを入力として推論用の軽量モデルに抽出することを提案します。
軽量モデルは、マルチビュー情報の意味的な関連付けと推論に焦点を当てており、シングルビューの入力だけでマルチビュー情報を含む包括的な表現を生成し、推論中に正確なテキストから画像への検索を実行できます。
特に、「よりリッチな」モデルのモーダル内機能とモーダル間の意味論的関係を使用して、軽量モデルを監視し、その強力な機能を継承します。
広範な実験により、LCR$^2$S の有効性が実証され、また、3 つの人気のある TIReID データセットで新しい最先端のパフォーマンスも達成されました。

要約(オリジナル)

Text-to-image person re-identification (TIReID) retrieves pedestrian images of the same identity based on a query text. However, existing methods for TIReID typically treat it as a one-to-one image-text matching problem, only focusing on the relationship between image-text pairs within a view. The many-to-many matching between image-text pairs across views under the same identity is not taken into account, which is one of the main reasons for the poor performance of existing methods. To this end, we propose a simple yet effective framework, called LCR$^2$S, for modeling many-to-many correspondences of the same identity by learning comprehensive representations for both modalities from a novel perspective. We construct a support set for each image (text) by using other images (texts) under the same identity and design a multi-head attentional fusion module to fuse the image (text) and its support set. The resulting enriched image and text features fuse information from multiple views, which are aligned to train a ‘richer’ TIReID model with many-to-many correspondences. Since the support set is unavailable during inference, we propose to distill the knowledge learned by the ‘richer’ model into a lightweight model for inference with a single image/text as input. The lightweight model focuses on semantic association and reasoning of multi-view information, which can generate a comprehensive representation containing multi-view information with only a single-view input to perform accurate text-to-image retrieval during inference. In particular, we use the intra-modal features and inter-modal semantic relations of the ‘richer’ model to supervise the lightweight model to inherit its powerful capability. Extensive experiments demonstrate the effectiveness of LCR$^2$S, and it also achieves new state-of-the-art performance on three popular TIReID datasets.

arxiv情報

著者 Shuanglin Yan,Neng Dong,Jun Liu,Liyan Zhang,Jinhui Tang
発行日 2023-10-17 12:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク