要約
人物の再識別タスクは、ポーズの変更やオクルージョンの問題に悩まされることが多いため、CNN をトレーニングする際に注意深い局所特徴の一部が抑制されることがよくあります。
この論文では、グローバルブランチとしての従来のResNet-50と機能ドロップブランチで構成される2ブランチネットワークであるBatch DropBlock(BDB)ネットワークを提案します。
グローバル ブランチは、グローバルな顕著な表現をエンコードします。
一方、特徴ドロップ ブランチは、Batch DropBlock と呼ばれる注意深い特徴学習モジュールで構成されています。これは、すべての入力特徴マップの同じ領域をバッチでランダムにドロップして、局所領域の注意深い特徴学習を強化します。
次に、ネットワークは両方の分岐からフィーチャを連結し、より包括的で空間的に分散されたフィーチャ表現を提供します。
シンプルではありますが、私たちの方法は、個人の再識別に関する最先端の技術を実現し、一般的なメトリック学習タスクにも適用できます。
たとえば、CUHK03-Detect データセットで 76.4% のランク 1 精度を達成し、Stanford Online Products データセットで 83.0% のリコール 1 スコアを達成し、既存の作品を大幅に (6% 以上) 上回っています。
要約(オリジナル)
Since the person re-identification task often suffers from the problem of pose changes and occlusions, some attentive local features are often suppressed when training CNNs. In this paper, we propose the Batch DropBlock (BDB) Network which is a two branch network composed of a conventional ResNet-50 as the global branch and a feature dropping branch. The global branch encodes the global salient representations. Meanwhile, the feature dropping branch consists of an attentive feature learning module called Batch DropBlock, which randomly drops the same region of all input feature maps in a batch to reinforce the attentive feature learning of local regions. The network then concatenates features from both branches and provides a more comprehensive and spatially distributed feature representation. Albeit simple, our method achieves state-of-the-art on person re-identification and it is also applicable to general metric learning tasks. For instance, we achieve 76.4% Rank-1 accuracy on the CUHK03-Detect dataset and 83.0% Recall-1 score on the Stanford Online Products dataset, outperforming the existing works by a large margin (more than 6%).
arxiv情報
著者 | Zuozhuo Dai,Mingqiang Chen,Xiaodong Gu,Siyu Zhu,Ping Tan |
発行日 | 2023-02-10 08:38:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google