Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification

要約

行動変化に基づく視覚リスクオブジェクト識別(Visual-Roi)を研究します。これは、インテリジェントな駆動システムの潜在的な危険を検出するために設計された重要なフレームワークです。
既存の方法は、多くの場合、シーンアフォーダンスの不完全な理解に起因する空間精度と時間的一貫性に大きな制限を示します。
たとえば、これらの方法は、リスクオブジェクトとしてエゴ車両に影響を与えない車両を頻繁に誤認します。
さらに、既存の動作の変化ベースの方法は、視点画像空間に因果推論を実装するため、非効率的です。
上記の課題を克服するために、鳥瞰図(BEV)表現を備えた新しいフレームワークを提案します。
具体的には、潜在的なフィールドをシーンアフォーダンスとして利用し、道路インフラストラクチャや交通参加者に由来する反発力と、ターゲットの目的地から供給された引力を伴います。
この作業では、BEVセマンティックセグメンテーションから得られたセマンティックラベルに従って異なるエネルギーレベルを割り当てることにより、潜在的なフィールドを計算します。
徹底的な実験とアブレーション研究を実施し、提案された方法を合成データセットと実際のデータセットの両方でさまざまな最先端のアルゴリズムと比較します。
我々の結果は、それぞれリスクベンチデータセットで20.3%と11.6%の強化により、空間的および時間的一貫性が顕著に増加することを示しています。
さらに、計算効率を88%改善できます。
空間精度が5.4%、ヌスケーンデータセットの時間的一貫性が7.2%の改善を達成しています。

要約(オリジナル)

We study behavior change-based visual risk object identification (Visual-ROI), a critical framework designed to detect potential hazards for intelligent driving systems. Existing methods often show significant limitations in spatial accuracy and temporal consistency, stemming from an incomplete understanding of scene affordance. For example, these methods frequently misidentify vehicles that do not impact the ego vehicle as risk objects. Furthermore, existing behavior change-based methods are inefficient because they implement causal inference in the perspective image space. We propose a new framework with a Bird’s Eye View (BEV) representation to overcome the above challenges. Specifically, we utilize potential fields as scene affordance, involving repulsive forces derived from road infrastructure and traffic participants, along with attractive forces sourced from target destinations. In this work, we compute potential fields by assigning different energy levels according to the semantic labels obtained from BEV semantic segmentation. We conduct thorough experiments and ablation studies, comparing the proposed method with various state-of-the-art algorithms on both synthetic and real-world datasets. Our results show a notable increase in spatial and temporal consistency, with enhancements of 20.3% and 11.6% on the RiskBench dataset, respectively. Additionally, we can improve computational efficiency by 88%. We achieve improvements of 5.4% in spatial accuracy and 7.2% in temporal consistency on the nuScenes dataset.

arxiv情報

著者 Pang-Yuan Pao,Shu-Wei Lu,Ze-Yan Lu,Yi-Ting Chen
発行日 2025-02-26 14:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク