要約
歩行者、サイクリスト、バイクなどの小型の閉塞されたオブジェクトの検出と追跡は、不安定な動き、頻繁な閉塞、動的な都市環境での視界が不十分であるため、交通監視システムに大きな課題をもたらします。
Yolo11のような従来の方法は、正確な検出のための空間的特徴抽出に習熟していますが、特にリアルタイムのデータの更新とリソース効率の処理において、これらの小さく動的に動くオブジェクトと闘うことがよくあります。
このペーパーでは、これらの制限に対処するために動的グラフニューラルネットワーク(DGNNS)とYOLO11を統合する新しいフレームワークであるDGNN-Yoloを紹介します。
標準のGNNとは異なり、DGNNは、グラフ構造をリアルタイムで動的に更新する優れた能力のために選択されます。これにより、非常に可変性の高い都市交通シナリオでオブジェクトの適応的かつ堅牢な追跡が可能になります。
このフレームワークは、グラフ表現を構築して定期的に更新し、ノードとしてオブジェクトをキャプチャし、その相互作用をエッジとしてキャプチャし、急速に変化する条件に効果的に応答します。
さらに、DGNN-YOLOには、Grad-CAM、Grad-CAM ++、およびEigen-CAMの視覚化技術が組み込まれており、解釈可能性を高め、信頼を促進し、モデルの意思決定プロセスに関する洞察を提供します。
広範な実験は、フレームワークのパフォーマンスを検証し、0.8382、0.6875、およびMap@0.5:0.95のリコールを0.6476のリコールを達成し、既存の方法を大幅に上回ります。
この研究は、リアルタイムのトラフィックサーベイランスのためのスケーラブルで解釈可能なソリューションを提供し、小規模で閉塞されたオブジェクトを検出および追跡するという重要な課題に対処することにより、インテリジェントな輸送システムの機能を大幅に進めます。
要約(オリジナル)
The detection and tracking of small, occluded objects such as pedestrians, cyclists, and motorbikes pose significant challenges for traffic surveillance systems because of their erratic movement, frequent occlusion, and poor visibility in dynamic urban environments. Traditional methods like YOLO11, while proficient in spatial feature extraction for precise detection, often struggle with these small and dynamically moving objects, particularly in handling real-time data updates and resource efficiency. This paper introduces DGNN-YOLO, a novel framework that integrates dynamic graph neural networks (DGNNs) with YOLO11 to address these limitations. Unlike standard GNNs, DGNNs are chosen for their superior ability to dynamically update graph structures in real-time, which enables adaptive and robust tracking of objects in highly variable urban traffic scenarios. This framework constructs and regularly updates its graph representations, capturing objects as nodes and their interactions as edges, thus effectively responding to rapidly changing conditions. Additionally, DGNN-YOLO incorporates Grad-CAM, Grad-CAM++, and Eigen-CAM visualization techniques to enhance interpretability and foster trust, offering insights into the model’s decision-making process. Extensive experiments validate the framework’s performance, achieving a precision of 0.8382, recall of 0.6875, and mAP@0.5:0.95 of 0.6476, significantly outperforming existing methods. This study offers a scalable and interpretable solution for real-time traffic surveillance and significantly advances intelligent transportation systems’ capabilities by addressing the critical challenge of detecting and tracking small, occluded objects.
arxiv情報
著者 | Shahriar Soudeep,Md Abrar Jahin,M. F. Mridha |
発行日 | 2025-04-28 15:19:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google