PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification

要約

オブジェクトの再識別では、重複しないカメラ間でオブジェクトを正確に識別するために、堅牢な特徴表現を抽出することが重要です。
ビジョン トランスフォーマー (ViT) は強力な表現能力を備えていますが、トレーニング データのほとんどの異なる領域に過剰適合する傾向があり、その一般化性と全体的なオブジェクトの特徴への注意が制限されます。
一方、CNN と ViT の構造的な違いにより、CNN でこの問題に効果的に対処するきめ細かい戦略は、ViT では引き続き成功しません。
この問題に対処するために、マルチヘッド アテンションの背後に隠された潜在的な多様な表現を観察することで、オブジェクト Re-ID タスクの粒度制限を克服するように設計された ViT の革新的な適応である PartFormer を紹介します。
PartFormer は、連結および FFN 層のポスト アテンションによって引き起こされる典型的な特徴の豊富さの損失なしに、マルチヘッド セルフ アテンションの多様な表現を目覚めさせるヘッド ディエンタングル ブロック (HDB) を統合します。
アテンション ヘッドの均質化を回避し、堅牢なパーツベースの特徴学習を促進するために、2 つのヘッド ダイバーシティ制約 (アテンション ダイバーシティ制約と相関ダイバーシティ制約) が課されます。
これらの制約により、モデルはさまざまなアテンションヘッドからの多様で識別的な特徴表現を活用できるようになります。
さまざまなオブジェクト Re-ID ベンチマークに関する包括的な実験により、PartFormer の優位性が実証されました。
具体的には、私たちのフレームワークは、最も困難な MSMT17 データセットで 2.4% の mAP スコアで最先端のフレームワークを大幅に上回っています。

要約(オリジナル)

Extracting robust feature representation is critical for object re-identification to accurately identify objects across non-overlapping cameras. Although having a strong representation ability, the Vision Transformer (ViT) tends to overfit on most distinct regions of training data, limiting its generalizability and attention to holistic object features. Meanwhile, due to the structural difference between CNN and ViT, fine-grained strategies that effectively address this issue in CNN do not continue to be successful in ViT. To address this issue, by observing the latent diverse representation hidden behind the multi-head attention, we present PartFormer, an innovative adaptation of ViT designed to overcome the granularity limitations in object Re-ID tasks. The PartFormer integrates a Head Disentangling Block (HDB) that awakens the diverse representation of multi-head self-attention without the typical loss of feature richness induced by concatenation and FFN layers post-attention. To avoid the homogenization of attention heads and promote robust part-based feature learning, two head diversity constraints are imposed: attention diversity constraint and correlation diversity constraint. These constraints enable the model to exploit diverse and discriminative feature representations from different attention heads. Comprehensive experiments on various object Re-ID benchmarks demonstrate the superiority of the PartFormer. Specifically, our framework significantly outperforms state-of-the-art by 2.4\% mAP scores on the most challenging MSMT17 dataset.

arxiv情報

著者 Lei Tan,Pingyang Dai,Jie Chen,Liujuan Cao,Yongjian Wu,Rongrong Ji
発行日 2024-08-29 16:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク