Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification

要約

タイトル:深い相互コンビューション・空間・時間相補的学習を持つ転送器を用いた動画ベースの人物識別

要約:
– 動画ベースの人物識別において、深層畳み込みニューラルネットワーク(CNN)は大きな成功を収めてきましたが、一般的には人物の最も明らかな領域にフォーカスしており、全体的な表現能力が限られています。
– 近年の転送器は、グローバルな観察によって相互パッチ関係を探索し、性能向上に貢献していることがわかってきました。
– 本研究では、両方の側面を取り、高性能動画ベースの人物識別のための新しい空間・時間相補的学習フレームワークであるDeeply-Coupled Convolution-Transformer(DCCT)を提案しています。
– まず、CNNとTransformerを組み合わせて2種類の視覚的特徴を抽出し、実験的にその相補性を確認します。
– さらに、空間的には、コンビニエンス・コンテンツ・アテンション(CCA)を提案し、結合構造の利点を活用し、空間の相補的な学習のための独立した特徴を誘導します。
– 時間的には、階層的な時間集約(HTA)を提案し、フレーム間の依存関係を段階的に捉え、時間的情報をエンコードします。
– さらに、ゲートアテンションを利用して、集約された時間的情報をCNNとTransformerのブランチに伝え、時間的相補的学習を実現します。
– 最後に、自己蒸留トレーニング戦略を紹介し、優れた空間・時間知識をバックボーンネットワークに転送して、より高い精度と効率を実現します。
– このように、同じ動画から2種類の代表的特徴が機械的に統合され、より情報豊富な表現が実現されます。
– 4つの公開Re-IDベンチマークでの大規模な実験により、当フレームワークが多くの最先端方法よりも優れた性能を発揮することが示されました。

要約(オリジナル)

Advanced deep Convolutional Neural Networks (CNNs) have shown great success in video-based person Re-Identification (Re-ID). However, they usually focus on the most obvious regions of persons with a limited global representation ability. Recently, it witnesses that Transformers explore the inter-patch relations with global observations for performance improvements. In this work, we take both sides and propose a novel spatial-temporal complementary learning framework named Deeply-Coupled Convolution-Transformer (DCCT) for high-performance video-based person Re-ID. Firstly, we couple CNNs and Transformers to extract two kinds of visual features and experimentally verify their complementarity. Further, in spatial, we propose a Complementary Content Attention (CCA) to take advantages of the coupled structure and guide independent features for spatial complementary learning. In temporal, a Hierarchical Temporal Aggregation (HTA) is proposed to progressively capture the inter-frame dependencies and encode temporal information. Besides, a gated attention is utilized to deliver aggregated temporal information into the CNN and Transformer branches for temporal complementary learning. Finally, we introduce a self-distillation training strategy to transfer the superior spatial-temporal knowledge to backbone networks for higher accuracy and more efficiency. In this way, two kinds of typical features from same videos are integrated mechanically for more informative representations. Extensive experiments on four public Re-ID benchmarks demonstrate that our framework could attain better performances than most state-of-the-art methods.

arxiv情報

著者 Xuehu Liu,Chenyang Yu,Pingping Zhang,Huchuan Lu
発行日 2023-04-27 12:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク