Efficient textual explanations for complex road and traffic scenarios based on semantic segmentation

要約

複雑な運転環境は、自動運転車の視覚に大きな課題をもたらします。
複雑な道路や交通のシナリオから明確で説明可能な情報を抽出し、意思決定と制御の手がかりを提供することが不可欠です。
ただし、前のシーンの説明は別のモデルとして実装されていました。
ブラックボックスモデルは、運転環境の解釈を困難にします。
包括的なテキスト情報を検出できず、高い計算負荷と時間の消費が必要です。
したがって、この研究は、包括的で効率的なテキスト説明モデルを提案しました。
運転環境の336kのビデオフレームから、複雑な道路および交通シナリオの重要な画像がデータセットに選択されました。
この研究では、転移学習を通じて、環境内の重要な交通要素を取得するための正確で効率的なセグメンテーションモデルを確立しました。
XGBoostアルゴリズムに基づいて、包括的なモデルが開発されました。
モデルは、トラフィック要素の状態、競合オブジェクトの動き、およびシナリオの複雑さに関するテキスト情報を提供しました。
このアプローチは、実際の道路で検証されました。
重要な交通要素の認識精度が78.8%に向上しました。
時間の消費は、各エポックで13分に達しました。これは、事前にトレーニングされたネットワークよりも11.5倍効率的でした。
モデルから分析されたテキスト情報も現実と一致していました。
調査結果は、複雑な運転環境に関する明確で説明可能な情報を提供し、その後の決定と制御の基礎を築きます。
それは視覚能力を改善し、複雑な交通状況の事前知識と判断を豊かにすることができます。

要約(オリジナル)

The complex driving environment brings great challenges to the visual perception of autonomous vehicles. It’s essential to extract clear and explainable information from the complex road and traffic scenarios and offer clues to decision and control. However, the previous scene explanation had been implemented as a separate model. The black box model makes it difficult to interpret the driving environment. It cannot detect comprehensive textual information and requires a high computational load and time consumption. Thus, this study proposed a comprehensive and efficient textual explanation model. From 336k video frames of the driving environment, critical images of complex road and traffic scenarios were selected into a dataset. Through transfer learning, this study established an accurate and efficient segmentation model to obtain the critical traffic elements in the environment. Based on the XGBoost algorithm, a comprehensive model was developed. The model provided textual information about states of traffic elements, the motion of conflict objects, and scenario complexity. The approach was verified on the real-world road. It improved the perception accuracy of critical traffic elements to 78.8%. The time consumption reached 13 minutes for each epoch, which was 11.5 times more efficient than the pre-trained network. The textual information analyzed from the model was also accordant with reality. The findings offer clear and explainable information about the complex driving environment, which lays a foundation for subsequent decision and control. It can improve the visual perception ability and enrich the prior knowledge and judgments of complex traffic situations.

arxiv情報

著者 Yiyue Zhao,Xinyu Yun,Chen Chai,Zhiyu Liu,Wenxuan Fan,Xiao Luo
発行日 2022-06-02 17:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク