要約
可視熱クロスモーダル人物再認識(VT-ReID)課題では、人間の姿勢やオクルージョンによる認識困難性に加え、異なる撮像システムによるモードの違いを解決することが必要である。本論文では、局所特徴量とグローバル特徴量の共同学習に基づく2ストリームネットワークであるCross-modal Local Shortest Path and Global Enhancement (CM-LSP-GE) モジュールを提案する。本論文では、局所特徴量のアライメントを利用してオクルージョン問題を解決し、グローバル特徴量を強化することでモード差を解決することを中核的なアイデアとしている。まず、アテンションベースの2ストリームResNetネットワークは、デュアルモダリティ特徴を抽出し、統一特徴空間へマッピングするように設計されている。次に、クロスモーダルな人物姿勢とオクルージョン問題を解決するために、画像を水平方向に複数等分して局所特徴を取得し、2つのグラフ間の局所特徴の最短経路を用いて、局所特徴のきめ細かな位置合わせを実現する。第三に、バッチ正規化強調モジュールは、異なるクラス間の差分強調をもたらし、戦略を強化するためにグローバルな特徴を適用します。多粒度損失融合戦略は、アルゴリズムの性能をさらに向上させる。最後に、局所特徴量と大域特徴量の共同学習メカニズムにより、クロスモーダルな人物再識別の精度を向上させる。2つの典型的なデータセットに対する実験結果から、我々のモデルが最も先進的な手法よりも明らかに優れていることが示された。特に、SYSU-MM01データセットでは、Rank-1およびmAPの全ての検索語において、2.89%および7.96%の利得を達成することができる。ソースコードは近日公開予定です。
要約(オリジナル)
In addition to considering the recognition difficulty caused by human posture and occlusion, it is also necessary to solve the modal differences caused by different imaging systems in the Visible-Thermal cross-modal person re-identification (VT-ReID) task. In this paper,we propose the Cross-modal Local Shortest Path and Global Enhancement (CM-LSP-GE) modules,a two-stream network based on joint learning of local and global features. The core idea of our paper is to use local feature alignment to solve occlusion problem, and to solve modal difference by strengthening global feature. Firstly, Attention-based two-stream ResNet network is designed to extract dual-modality features and map to a unified feature space. Then, to solve the cross-modal person pose and occlusion problems, the image are cut horizontally into several equal parts to obtain local features and the shortest path in local features between two graphs is used to achieve the fine-grained local feature alignment. Thirdly, a batch normalization enhancement module applies global features to enhance strategy, resulting in difference enhancement between different classes. The multi granularity loss fusion strategy further improves the performance of the algorithm. Finally, joint learning mechanism of local and global features is used to improve cross-modal person re-identification accuracy. The experimental results on two typical datasets show that our model is obviously superior to the most state-of-the-art methods. Especially, on SYSU-MM01 datasets, our model can achieve a gain of 2.89%and 7.96% in all search term of Rank-1 and mAP. The source code will be released soon.
arxiv情報
著者 | Xiaohong Wang,Chaoqi Li,Xiangcai Ma |
発行日 | 2022-06-09 10:27:22+00:00 |
arxivサイト | arxiv_id(pdf) |