VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search

要約

テキストベースの人物検索 (TBPS) は、テキストの説明によって示される対象の歩行者の画像を取得することを目的としています。
TBPS では、きめの細かい局所特徴を抽出し、それらをモダリティを超えて調整することが不可欠です。
既存の方法では、外部ツールや大量のクロスモーダル相互作用を利用して、クロスモーダルのきめ細かい特徴の明示的な位置合わせを実現していますが、これは非効率的で時間がかかります。
この研究では、適切に調整されたきめの細かい視覚的特徴とテキスト特徴を抽出するための、テキストベースの人物検索のためのビジョンガイド型セマンティックグループネットワーク (VGSG) を提案します。
提案された VGSG では、視覚的なローカル手がかりの指導の下でテキストのローカルな特徴を抽出するためのセマンティック グループ テキスト学習 (SGTL) モジュールと視覚ガイド付き知識伝達 (VGKT) モジュールを開発します。
SGTL では、ローカルのテキスト表現を取得するために、言語表現の意味論的な手がかりに基づいてチャネル次元からテキスト特徴をグループ化します。これにより、外部ツールを使用せずに、同様の意味論的パターンが暗黙的にグループ化されることが促進されます。
VGKT では、視覚に誘導された注意を利用して、視覚関連のテキスト特徴を抽出します。これらの特徴は、本質的に視覚的な手がかりと一致しており、視覚誘導テキスト特徴と呼ばれます。
さらに、視覚に導かれたテキスト特徴の情報を意味論的グループのテキスト特徴に適応的に伝播するために、視覚言語類似性伝達とクラス確率伝達を含むリレーショナル知識伝達を設計します。
リレーショナル知識伝達の助けを借りて、VGKT は、外部ツールや複雑なペアごとの相互作用を必要とせずに、セマンティック グループのテキスト特徴を対応する視覚特徴と整合させることができます。
2 つの困難なベンチマークに関する実験結果は、最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Text-based Person Search (TBPS) aims to retrieve images of target pedestrian indicated by textual descriptions. It is essential for TBPS to extract fine-grained local features and align them crossing modality. Existing methods utilize external tools or heavy cross-modal interaction to achieve explicit alignment of cross-modal fine-grained features, which is inefficient and time-consuming. In this work, we propose a Vision-Guided Semantic-Group Network (VGSG) for text-based person search to extract well-aligned fine-grained visual and textual features. In the proposed VGSG, we develop a Semantic-Group Textual Learning (SGTL) module and a Vision-guided Knowledge Transfer (VGKT) module to extract textual local features under the guidance of visual local clues. In SGTL, in order to obtain the local textual representation, we group textual features from the channel dimension based on the semantic cues of language expression, which encourages similar semantic patterns to be grouped implicitly without external tools. In VGKT, a vision-guided attention is employed to extract visual-related textual features, which are inherently aligned with visual cues and termed vision-guided textual features. Furthermore, we design a relational knowledge transfer, including a vision-language similarity transfer and a class probability transfer, to adaptively propagate information of the vision-guided textual features to semantic-group textual features. With the help of relational knowledge transfer, VGKT is capable of aligning semantic-group textual features with corresponding visual features without external tools and complex pairwise interaction. Experimental results on two challenging benchmarks demonstrate its superiority over state-of-the-art methods.

arxiv情報

著者 Shuting He,Hao Luo,Wei Jiang,Xudong Jiang,Henghui Ding
発行日 2023-11-13 17:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク