要約
自律駆動システムは、敵対的な歩行者の動き、危険な車両の操作、突然の環境の変化など、予測不可能なエッジケースシナリオの処理において大きな課題に直面しています。
現在のエンドツーエンドの運転モデルは、従来の検出と予測アプローチの制限により、これらのまれなイベントへの一般化と闘っています。
これに対処するために、ハザード検出とエッジケース評価を強化するために設計された階層ビジョン言語モデル(VLM)フレームワークである、洞察(一般化ハザード追跡のためのセマンティックおよび視覚入力の統合)を提案します。
マルチモーダルデータ融合を使用することにより、当社のアプローチはセマンティックと視覚の表現を統合し、運転シナリオの正確な解釈と潜在的な危険の正確な予測を可能にします。
VLMSの監視された微調整を通じて、注意ベースのメカニズムと調整回帰技術を使用して、空間ハザードのローカリゼーションを最適化します。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の率直さと精度の大幅な改善を示し、一般化パフォーマンスの顕著な増加を達成します。
この進歩は、自律運転システムの堅牢性と安全性を高め、複雑な現実世界のシナリオでの状況認識と潜在的な意思決定を確保します。
要約(オリジナル)
Autonomous driving systems face significant challenges in handling unpredictable edge-case scenarios, such as adversarial pedestrian movements, dangerous vehicle maneuvers, and sudden environmental changes. Current end-to-end driving models struggle with generalization to these rare events due to limitations in traditional detection and prediction approaches. To address this, we propose INSIGHT (Integration of Semantic and Visual Inputs for Generalized Hazard Tracking), a hierarchical vision-language model (VLM) framework designed to enhance hazard detection and edge-case evaluation. By using multimodal data fusion, our approach integrates semantic and visual representations, enabling precise interpretation of driving scenarios and accurate forecasting of potential dangers. Through supervised fine-tuning of VLMs, we optimize spatial hazard localization using attention-based mechanisms and coordinate regression techniques. Experimental results on the BDD100K dataset demonstrate a substantial improvement in hazard prediction straightforwardness and accuracy over existing models, achieving a notable increase in generalization performance. This advancement enhances the robustness and safety of autonomous driving systems, ensuring improved situational awareness and potential decision-making in complex real-world scenarios.
arxiv情報
著者 | Dianwei Chen,Zifan Zhang,Yuchen Liu,Xianfeng Terry Yang |
発行日 | 2025-05-16 17:26:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google