Self-supervised Geometric Features Discovery via Interpretable Attention for Vehicle Re-Identification and Beyond

要約

車両再識別(ReID)の研究では、識別可能なパターンを学習するために、公式ベンチマークを再作成し、様々な監視を行う必要があり、そのために膨大な人手が必要であった。本論文では、同様の目標を達成するために、人手をかけない方法を模索する。このため、我々は、幾何学的な局所特徴量とグローバルな表現量の両方をうまく符号化し、公式IDラベルからの監視のみによって車両インスタンスを最適化する新しいフレームワークを導入する。具体的には、ReIDに含まれるオブジェクトは類似した幾何学的特徴を共有しているという我々の洞察をもとに、幾何学的特徴の発見を促進するために、自己教師付き表現学習を用いることを提案する。これらの特徴を凝縮するために、我々は、完全自動学習の代わりに局所最大値集約を中核とする解釈可能な注意モジュールを導入し、そのメカニズムは完全に理解可能であり、その応答マップは物理的に妥当である。我々の知る限り、幾何学的特徴を発見するために自己教師付き学習を行ったのは我々が最初である。我々は、VeRi-776、CityFlow-ReID、VehicleIDの3つの最も一般的なデータセットで包括的な実験を行った。その結果、SOTAに匹敵する性能と、有望な可視化結果を得ることができた。また、他のReID関連タスク、すなわち、人物ReIDやマルチターゲット・マルチカメラ(MTMC)車両追跡においても、我々のアプローチが優れたスケーラビリティを持つことも示している。

要約(オリジナル)

To learn distinguishable patterns, most of recent works in vehicle re-identification (ReID) struggled to redevelop official benchmarks to provide various supervisions, which requires prohibitive human labors. In this paper, we seek to achieve the similar goal but do not involve more human efforts. To this end, we introduce a novel framework, which successfully encodes both geometric local features and global representations to distinguish vehicle instances, optimized only by the supervision from official ID labels. Specifically, given our insight that objects in ReID share similar geometric characteristics, we propose to borrow self-supervised representation learning to facilitate geometric features discovery. To condense these features, we introduce an interpretable attention module, with the core of local maxima aggregation instead of fully automatic learning, whose mechanism is completely understandable and whose response map is physically reasonable. To the best of our knowledge, we are the first that perform self-supervised learning to discover geometric features. We conduct comprehensive experiments on three most popular datasets for vehicle ReID, i.e., VeRi-776, CityFlow-ReID, and VehicleID. We report our state-of-the-art (SOTA) performances and promising visualization results. We also show the excellent scalability of our approach on other ReID related tasks, i.e., person ReID and multi-target multi-camera (MTMC) vehicle tracking.

arxiv情報

著者 Ming Li,Xinming Huang,Ziming Zhang
発行日 2023-01-06 11:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク