要約
ビデオベースの人物再識別(ReID)は、ビデオフレームに様々な干渉が存在するため、困難である。最近のアプローチでは、時間的な集約戦略を用いてこの問題を扱っている。本研究では、フレーム特徴抽出と時間的集約の両ステップを改善した新しい文脈感知注意ネットワーク(Context Sensing Attention Network: CSA-Net)を提案する。まず、Context Sensing Channel Attention (CSCA)モジュールを導入し、各フレームの情報量の多いチャンネルからの応答を重要視する。この情報チャンネルは、個々のフレームだけでなく、シーケンス全体のコンテンツも参照して特定される。そのため、CSCAは各フレームの個別性とシーケンスのグローバルな文脈の両方を探索する。次に、時間的集約のためのフレームの重みを予測するContrastive Feature Aggregation (CFA)モジュールを提案する。ここでは、各フレームの重みが対照的に決定される。すなわち、個々のフレームの品質だけでなく、シーケンス内の他のフレームの平均的な品質によっても決定される。そのため、比較的良質なフレームの寄与を効果的に促進することができる。4つのデータセットを用いた広範な実験結果により、CSA-Netは一貫して最先端の性能を達成することが示された。
要約(オリジナル)
Video-based person re-identification (ReID) is challenging due to the presence of various interferences in video frames. Recent approaches handle this problem using temporal aggregation strategies. In this work, we propose a novel Context Sensing Attention Network (CSA-Net), which improves both the frame feature extraction and temporal aggregation steps. First, we introduce the Context Sensing Channel Attention (CSCA) module, which emphasizes responses from informative channels for each frame. These informative channels are identified with reference not only to each individual frame, but also to the content of the entire sequence. Therefore, CSCA explores both the individuality of each frame and the global context of the sequence. Second, we propose the Contrastive Feature Aggregation (CFA) module, which predicts frame weights for temporal aggregation. Here, the weight for each frame is determined in a contrastive manner: i.e., not only by the quality of each individual frame, but also by the average quality of the other frames in a sequence. Therefore, it effectively promotes the contribution of relatively good frames. Extensive experimental results on four datasets show that CSA-Net consistently achieves state-of-the-art performance.
arxiv情報
| 著者 | Kan Wang,Changxing Ding,Jianxin Pang,Xiangmin Xu |
| 発行日 | 2022-07-06 12:48:27+00:00 |
| arxivサイト | arxiv_id(pdf) |