Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

要約

近年、Transformer アーキテクチャは、ビデオベースの人物再識別タスクでその優位性を示しています。
ビデオ表現学習に触発されたこれらの方法は、主に有益な空間的および時間的特徴を抽出するモジュールの設計に焦点を当てています。
ただし、個人の再識別タスクにとって重要なローカル属性とグローバル ID 情報の抽出にはまだ制限があります。
この論文では、上記の問題に対処するために、2つの新しい設計されたプロキシ埋め込みモジュールを備えた新しい多段時空間集約変換器(MSTAT)を提案します。
具体的には、MSTAT は、ビデオ クリップからの属性関連情報、ID 関連情報、および属性 ID 関連情報をそれぞれエンコードする 3 つの段階で構成され、入力者の全体的な認識を実現します。
最終的な識別のために、すべての段階の出力を組み合わせます。
実際には、計算コストを節約するために、時空間集約 (STA) モジュールが最初に各段階で採用され、空間次元と時間次元に沿って自己注意操作を個別に実行します。
さらに、Attribute-Aware および Identity-Aware Proxy 埋め込みモジュール (AAP および IAP) を導入して、さまざまな段階で有益で識別可能な特徴表現を抽出します。
それらはすべて、特定の意味を持つ新しく設計された自己注意操作を採用することによって実現されます。
さらに、モデルのロバスト性をさらに向上させるために、一時的なパッチ シャッフルも導入されています。
広範な実験結果は、ビデオから有益で識別可能な情報を抽出する際に提案されたモジュールの有効性を実証し、MSTAT がさまざまな標準ベンチマークで最先端の精度を達成できることを示しています。

要約(オリジナル)

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.

arxiv情報

著者 Ziyi Tang,Ruimao Zhang,Zhanglin Peng,Jinrui Chen,Liang Lin
発行日 2023-01-02 05:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク