要約
歩行者、自転車、バイクのような小さくて見えない物体の検出と追跡は、不規則な動き、頻繁なオクルージョン、動的な都市環境での視認性の悪さから、交通監視システムにとって大きな課題となります。YOLO11のような従来の手法は、正確な検出のための空間特徴抽出には長けているものの、このような小さくて動的に移動する物体に対しては、特にリアルタイムのデータ更新やリソース効率の処理に苦戦することが多い。本稿では、これらの限界に対処するために、ダイナミックグラフニューラルネットワーク(DGNN)をYOLO11に統合した新しいフレームワークであるDGNN-YOLOを紹介する。標準的なGNNとは異なり、DGNNはリアルタイムでグラフ構造を動的に更新する優れた能力から選ばれており、これにより変化の激しい都市交通シナリオにおいて、適応的でロバストな物体追跡が可能になる。このフレームワークは、オブジェクトをノードとして、それらの相互作用をエッジとして捉え、グラフ表現を構築し、定期的に更新することで、急速に変化する状況に効果的に対応する。さらに、DGNN-YOLOはGrad-CAM、Grad-CAM++、Eigen-CAMの可視化技術を取り入れ、解釈可能性を高め、モデルの意思決定プロセスに対する洞察を提供し、信頼を醸成する。広範な実験によりフレームワークの性能が検証され、精度0.8382、想起0.6875、mAP@0.5:0.95 0.6476を達成し、既存の手法を大幅に凌駕している。本研究は、リアルタイムの交通監視のためのスケーラブルで解釈可能なソリューションを提供し、小さくて隠蔽された物体の検出と追跡という重要な課題に取り組むことで、インテリジェント交通システムの能力を大幅に向上させる。
要約(オリジナル)
The detection and tracking of small, occluded objects such as pedestrians, cyclists, and motorbikes pose significant challenges for traffic surveillance systems because of their erratic movement, frequent occlusion, and poor visibility in dynamic urban environments. Traditional methods like YOLO11, while proficient in spatial feature extraction for precise detection, often struggle with these small and dynamically moving objects, particularly in handling real-time data updates and resource efficiency. This paper introduces DGNN-YOLO, a novel framework that integrates dynamic graph neural networks (DGNNs) with YOLO11 to address these limitations. Unlike standard GNNs, DGNNs are chosen for their superior ability to dynamically update graph structures in real-time, which enables adaptive and robust tracking of objects in highly variable urban traffic scenarios. This framework constructs and regularly updates its graph representations, capturing objects as nodes and their interactions as edges, thus effectively responding to rapidly changing conditions. Additionally, DGNN-YOLO incorporates Grad-CAM, Grad-CAM++, and Eigen-CAM visualization techniques to enhance interpretability and foster trust, offering insights into the model’s decision-making process. Extensive experiments validate the framework’s performance, achieving a precision of 0.8382, recall of 0.6875, and mAP@0.5:0.95 of 0.6476, significantly outperforming existing methods. This study offers a scalable and interpretable solution for real-time traffic surveillance and significantly advances intelligent transportation systems’ capabilities by addressing the critical challenge of detecting and tracking small, occluded objects.
arxiv情報
著者 | Shahriar Soudeep,Md Abrar Jahin,M. F. Mridha |
発行日 | 2025-05-05 17:28:03+00:00 |
arxivサイト | arxiv_id(pdf) |