Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava

要約

トラフィックサイン認識(TSR)検出は、自律車両の重要なコンポーネントです。
1回だけ(Yolo)は人気のあるリアルタイムオブジェクト検出アルゴリズムですが、データの品質や不利な気象条件(大雨など)などの要因が検出障害につながる可能性があります。
これらの障害は、高速制限標識と30 km/hの標識を誤解するなど、オブジェクト間の視覚的な類似性が存在する場合に特に危険です。
このペーパーでは、ビデオ分析と推論を組み合わせた方法を提案し、特に半リアルワールド条件で、道路速度速度標識を検出する際のヨロの精度を改善するために、人間のループガイドの大きなビジョンモデルを促します。
ビデオラバのガイド付きプロンプトと推論能力がYolosトラフィックサイン検出機能を強化できると仮定されています。
この仮説は、Carla Car Simulatorの録音されたビデオのデータセット内の人間が発表した精度メトリックに基づく評価によってサポートされています。
結果は、ヨロとビデオラバと推論を組み合わせた共同アプローチが、ヨロの検出能力を妨げる大雨や曇りの状態などの挑戦的な状況に効果的に対処できることを示しています。

要約(オリジナル)

Traffic Sign Recognition (TSR) detection is a crucial component of autonomous vehicles. While You Only Look Once (YOLO) is a popular real-time object detection algorithm, factors like training data quality and adverse weather conditions (e.g., heavy rain) can lead to detection failures. These failures can be particularly dangerous when visual similarities between objects exist, such as mistaking a 30 km/h sign for a higher speed limit sign. This paper proposes a method that combines video analysis and reasoning, prompting with a human-in-the-loop guide large vision model to improve YOLOs accuracy in detecting road speed limit signs, especially in semi-real-world conditions. It is hypothesized that the guided prompting and reasoning abilities of Video-LLava can enhance YOLOs traffic sign detection capabilities. This hypothesis is supported by an evaluation based on human-annotated accuracy metrics within a dataset of recorded videos from the CARLA car simulator. The results demonstrate that a collaborative approach combining YOLO with Video-LLava and reasoning can effectively address challenging situations such as heavy rain and overcast conditions that hinder YOLOs detection capabilities.

arxiv情報

著者 Mehdi Azarafza,Fatima Idrees,Ali Ehteshami Bejnordi,Charles Steinmetz,Stefan Henkler,Achim Rettberg
発行日 2025-03-05 15:26:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク