Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition


きめ細かい車両認識 (FGVR) は、インテリジェント交通システムに不可欠な基礎技術ですが、クラス内での固有のばらつきがあるため、非常に困難です。
これまでの FGVR 研究のほとんどは、撮影角度や位置などの違いによって引き起こされるクラス内変動のみに焦点を当てており、画像ノイズによって引き起こされるクラス内変動についてはほとんど注目されていませんでした。
PMAL フレームワークは、画像認識における追加タスクとして画像のノイズ除去を扱い、モデルにノイズ不変性の学習を段階的に強制することで、高い認識精度を実現します。
PMD フレームワークは、PMAL でトレーニングされたモデルの知識を元のバックボーン ネットワークに転送します。これにより、PMAL でトレーニングされたモデルとほぼ同じ認識精度を持つモデルが生成されますが、元のバックボーン ネットワークに追加のオーバーヘッドは発生しません。
2 つのフレームワークを組み合わせることで、広く使用されている 2 つの標準 FGVR データセット (Stanford Cars と CompCars) および 3 つの追加の監視画像ベース車両の認識精度において、以前の最先端の方法を大幅に上回るモデルが得られます。
-タイプ分類データセット、つまり北京理工大学 (BIT)-Vehicle、Vehicle Type Image Data 2 (VTID2)、および Make Model Recognition 用の Vehicle Images Dataset (VIDMMR) を元のバックボーン ネットワーク上で追加のオーバーヘッドなしで利用できます。
ソース コードは で入手できます。


Fine-grained vehicle recognition (FGVR) is an essential fundamental technology for intelligent transportation systems, but very difficult because of its inherent intra-class variation. Most previous FGVR studies only focus on the intra-class variation caused by different shooting angles, positions, etc., while the intra-class variation caused by image noise has received little attention. This paper proposes a progressive multi-task anti-noise learning (PMAL) framework and a progressive multi-task distilling (PMD) framework to solve the intra-class variation problem in FGVR due to image noise. The PMAL framework achieves high recognition accuracy by treating image denoising as an additional task in image recognition and progressively forcing a model to learn noise invariance. The PMD framework transfers the knowledge of the PMAL-trained model into the original backbone network, which produces a model with about the same recognition accuracy as the PMAL-trained model, but without any additional overheads over the original backbone network. Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks. The source code is available at


著者 Dichao Liu
発行日 2024-01-25 17:34:34+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CV パーマリンク