Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search

要約

テキストベースの人物検索は、クエリ テキストの説明が与えられた画像ギャラリーから同じ ID を持つ歩行者の画像を検索することを目的とする、困難なタスクです。
近年、テキストベースの人物検索は順調に進歩しており、最先端の手法では、画像とテキストの間の局所的なきめの細かい対応を学習することで優れたパフォーマンスを実現しています。
ただし、既存の方法は、手動の分割ツールまたは外部ツールを使用して、画像とテキストから画像部分とテキスト フレーズを明示的に抽出し、複雑なクロスモーダル ローカル マッチングを実行します。
さらに、既存の方法は、画像固有の情報によって引き起こされるモダリティ間の情報不平等の問題をほとんど考慮していません。
この論文では、テキストベースの人物検索のための効率的な共同情報および意味アラインメント ネットワーク (ISANet) を提案します。
具体的には、最初に画像固有の情報抑制モジュールを設計します。これは、それぞれ関係ガイドローカリゼーションとチャネルアテンションフィルタリングによって画像の背景と環境要因を抑制します。
この設計は、情報の不平等の問題を効果的に軽減し、画像とテキスト間の情報の整列を実現できます。
次に、画像とテキストの特徴を一連のモダリティ共有セマンティック トピック センターに適応的に集約し、追加の監視情報や複雑なクロスモーダル インタラクションなしで、画像とテキスト間のローカルのきめの細かい対応を暗黙的に学習する暗黙のローカル アラインメント モジュールを提案します。
.
さらに、ローカルな視点の補足として、グローバルな連携が導入されています。
複数のデータベースでの広範な実験により、提案された ISANet の有効性と優位性が実証されました。

要約(オリジナル)

Text-based person search is a challenging task that aims to search pedestrian images with the same identity from the image gallery given a query text description. In recent years, text-based person search has made good progress, and state-of-the-art methods achieve superior performance by learning local fine-grained correspondence between images and texts. However, the existing methods explicitly extract image parts and text phrases from images and texts by hand-crafted split or external tools and then conduct complex cross-modal local matching. Moreover, the existing methods seldom consider the problem of information inequality between modalities caused by image-specific information. In this paper, we propose an efficient joint Information and Semantic Alignment Network (ISANet) for text-based person search. Specifically, we first design an image-specific information suppression module, which suppresses image background and environmental factors by relation-guide localization and channel attention filtration respectively. This design can effectively alleviate the problem of information inequality and realize the information alignment between images and texts. Secondly, we propose an implicit local alignment module to adaptively aggregate image and text features to a set of modality-shared semantic topic centers, and implicitly learn the local fine-grained correspondence between images and texts without additional supervision information and complex cross-modal interactions. Moreover, a global alignment is introduced as a supplement to the local perspective. Extensive experiments on multiple databases demonstrate the effectiveness and superiority of the proposed ISANet.

arxiv情報

著者 Shuanglin Yan,Hao Tang,Liyan Zhang,Jinhui Tang
発行日 2022-08-30 16:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク