Study on Aspect Ratio Variability toward Robustness of Vision Transformer-based Vehicle Re-identification

要約

ビジョン トランスフォーマー (ViT) は、車両再識別 (ReID) タスクに優れています。
ただし、画像またはビデオ入力の非正方形のアスペクト比は、再識別のパフォーマンスに大きな影響を与える可能性があります。
この問題に対処するために、この論文では、さまざまなアスペクト比でトレーニングされたモデルを融合する、新しい ViT ベースの ReID フレームワークを提案します。
私たちの主な貢献は次の 3 つです。(i) VeRi-776 および VehicleID データセットのアスペクト比パフォーマンスを分析し、元の画像のアスペクト比に基づいて入力設定をガイドします。
(ii) ViT パッチ化中に画像内パッチごとのミックスアップを導入し (空間注意スコアに基づいて)、オブジェクトのアスペクト比のマッチングを改善するために不均一なストライドを実装します。
(iii) ReID ネットワークを融合した動的特徴を提案し、モデルの堅牢性を強化します。
当社の ReID メソッドは、VehicleID データセットでの最も近い最先端 (CAL) 結果の 80.9\% と比較して、91.0\% という大幅に改善された平均平均精度 (mAP) を達成します。

要約(オリジナル)

Vision Transformers (ViTs) have excelled in vehicle re-identification (ReID) tasks. However, non-square aspect ratios of image or video input might significantly affect the re-identification performance. To address this issue, we propose a novel ViT-based ReID framework in this paper, which fuses models trained on a variety of aspect ratios. Our main contributions are threefold: (i) We analyze aspect ratio performance on VeRi-776 and VehicleID datasets, guiding input settings based on aspect ratios of original images. (ii) We introduce patch-wise mixup intra-image during ViT patchification (guided by spatial attention scores) and implement uneven stride for better object aspect ratio matching. (iii) We propose a dynamic feature fusing ReID network, enhancing model robustness. Our ReID method achieves a significantly improved mean Average Precision (mAP) of 91.0\% compared to the the closest state-of-the-art (CAL) result of 80.9\% on VehicleID dataset.

arxiv情報

著者 Mei Qiu,Lauren Christopher,Lingxi Li
発行日 2024-07-10 17:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク