A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

要約

ネットワークカメラの数が増え続けるにつれて、トラフィックの監視、管理、および最適化のために、インテリジェントな輸送システム(ITS)でビジョンセンサーがより重要になっています。
ただし、複数の非重複カメラにわたる手動オブジェクトの追跡とマッチングは、都市規模の都市交通シナリオに大きな課題をもたらします。
これらの課題には、多様な車両属性、閉塞、照明のバリエーション、影、さまざまなビデオ解決の処理が含まれます。
これらの問題に対処するために、マルチオブジェクトマルチカメラ追跡(MO-MCT)のための効率的で費用対効果の高いディープラーニングベースのフレームワークを提案します。
提案されたフレームワークは、オブジェクト検出にマスクR-CNNを使用し、非最大抑制(NMS)を使用して、重複する検出からターゲットオブジェクトを選択します。
転送学習は、再識別のために採用されており、複数のカメラにわたって車両トラックレットの関連性と生成を可能にします。
さらに、閉塞、照明、影の課題を処理するために、適切な損失関数と距離測定を活用します。
最終的なソリューション識別モジュールは、ディープソートベースの車両追跡と組み合わせたResNet-152を使用して機能抽出を実行します。
提案されたフレームワークは、46のカメラフィードで構成される第5 AI City Challenge Dataset(トラック3)で評価されます。
これらの46のカメラストリームのうち、40はモデルトレーニングと検証に使用され、残りの6つはモデルテストに使用されます。
提案されたフレームワークは、0.8289のIDF1スコアで競争力のあるパフォーマンスを達成し、それぞれ0.9026と0.8527の精度とリコールスコアを達成し、堅牢で正確な車両追跡におけるその有効性を示しています。

要約(オリジナル)

Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

arxiv情報

著者 Muhammad Imran Zaman,Usama Ijaz Bajwa,Gulshan Saleem,Rana Hammad Raza
発行日 2025-05-01 14:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク