要約
可視赤外線による人物の再識別は、モダリティのギャップが大きいため困難です。
このギャップを埋めるために、ほとんどの研究は可視赤外線の全体的な人物画像の相関に大きく依存しているため、深刻な分布の変化の下ではパフォーマンスが低下する可能性があります。
対照的に、一部のクロスモーダル相関高周波成分には識別可能な視覚パターンが含まれており、全体的な画像よりも波長、姿勢、背景のクラッターなどの変動による影響が少ないことがわかりました。
したがって、私たちは、そのような高周波コンポーネントに基づいてモダリティギャップを橋渡しし、\textbf{Proto}type-guided \textbf{H}igh-frequency \textbf{P}atch \textbf{E}nhancement (ProtoHPE) を提案することに意欲的に取り組んでいます。
) 2 つのコア設計を備えています。
\textbf{First}、クロスモーダル相関高周波コンポーネントの表現能力を強化するために、ウェーブレット変換と指数移動平均ビジョン トランスフォーマー (ViT) によってそのようなコンポーネントを含むパッチを分割し、ViT が分割パッチを補助として取得できるようにします。
入力。
\textbf{Second}、同じアイデンティティの意味的にコンパクトで識別可能な高周波表現を取得するために、マルチモーダル プロトタイプ コントラストを提案します。
具体的には、さまざまなモーダル インスタンスの包括的なセマンティクスを階層的に取得し、同じアイデンティティに属する高頻度表現の集約を容易にします。
これにより、ViT は ProtoHPE に依存せずに推論中に主要な高周波成分をキャプチャできるため、余分な複雑さが生じません。
広範な実験により、ProtoHPE の有効性が検証されています。
要約(オリジナル)
Visible-infrared person re-identification is challenging due to the large modality gap. To bridge the gap, most studies heavily rely on the correlation of visible-infrared holistic person images, which may perform poorly under severe distribution shifts. In contrast, we find that some cross-modal correlated high-frequency components contain discriminative visual patterns and are less affected by variations such as wavelength, pose, and background clutter than holistic images. Therefore, we are motivated to bridge the modality gap based on such high-frequency components, and propose \textbf{Proto}type-guided \textbf{H}igh-frequency \textbf{P}atch \textbf{E}nhancement (ProtoHPE) with two core designs. \textbf{First}, to enhance the representation ability of cross-modal correlated high-frequency components, we split patches with such components by Wavelet Transform and exponential moving average Vision Transformer (ViT), then empower ViT to take the split patches as auxiliary input. \textbf{Second}, to obtain semantically compact and discriminative high-frequency representations of the same identity, we propose Multimodal Prototypical Contrast. To be specific, it hierarchically captures the comprehensive semantics of different modal instances, facilitating the aggregation of high-frequency representations belonging to the same identity. With it, ViT can capture key high-frequency components during inference without relying on ProtoHPE, thus bringing no extra complexity. Extensive experiments validate the effectiveness of ProtoHPE.
arxiv情報
著者 | Guiwei Zhang,Yongfei Zhang,Zichang Tan |
発行日 | 2023-10-11 14:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google