要約
交通標識認識 (TSR) 検出は、自動運転車の重要なコンポーネントです。
You Only Look Once (YOLO) は人気のあるリアルタイム物体検出アルゴリズムですが、トレーニング データの品質や悪天候 (大雨など) などの要因により検出が失敗する可能性があります。
このような失敗は、時速 30 km の標識を最高速度の標識と間違えるなど、物体間に視覚的な類似性が存在する場合に特に危険となる可能性があります。
この論文では、ビデオ分析と推論を組み合わせた方法を提案し、人間参加型ガイドの大型視覚モデルを使用して、特に準現実世界の状況で道路速度制限標識を検出する際の YOLO の精度を向上させます。
Video-LLava のガイド付きプロンプトおよび推論機能により、YOLO の交通標識検出機能が強化されるという仮説が立てられています。
この仮説は、CARLA カー シミュレーターからの録画ビデオのデータセット内で人間が注釈を付けた精度メトリクスに基づく評価によって裏付けられています。
この結果は、YOLO と Video-LLava および推論を組み合わせた協調的なアプローチにより、YOLO の検出機能を妨げる大雨や曇天などの困難な状況に効果的に対処できることを示しています。
要約(オリジナル)
Traffic Sign Recognition (TSR) detection is a crucial component of autonomous vehicles. While You Only Look Once (YOLO) is a popular real-time object detection algorithm, factors like training data quality and adverse weather conditions (e.g., heavy rain) can lead to detection failures. These failures can be particularly dangerous when visual similarities between objects exist, such as mistaking a 30 km/h sign for a higher speed limit sign. This paper proposes a method that combines video analysis and reasoning, prompting with a human-in-the-loop guide large vision model to improve YOLOs accuracy in detecting road speed limit signs, especially in semi-real-world conditions. It is hypothesized that the guided prompting and reasoning abilities of Video-LLava can enhance YOLOs traffic sign detection capabilities. This hypothesis is supported by an evaluation based on human-annotated accuracy metrics within a dataset of recorded videos from the CARLA car simulator. The results demonstrate that a collaborative approach combining YOLO with Video-LLava and reasoning can effectively address challenging situations such as heavy rain and overcast conditions that hinder YOLOs detection capabilities.
arxiv情報
著者 | Mehdi Azarafza,Fatima Idrees,Ali Ehteshami Bejnordi,Charles Steinmetz,Stefan Henkler,Achim Rettberg |
発行日 | 2024-10-07 14:50:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google