On the Road to Clarity: Exploring Explainable AI for World Models in a Driver Assistance System

要約

自動運転(AD)では、間違いは高くつくため、透明性と安全性が最も重要です。
ただし、AD システムで使用されるニューラル ネットワークは一般にブラック ボックスとみなされます。
その対策として、特徴関連性推定や次元削減などの説明可能なAI(XAI)の手法があります。
粗視化手法は、次元を削減し、解釈可能なグローバル パターンを見つけるのにも役立ちます。
特定の粗視化手法は、統計物理学による繰り込み群です。
これは以前、教師なし学習を解釈するために制限付きボルツマン マシン (RBM) に適用されていました。
私たちは、潜在値を入力特徴にマッピングできるようにし、トレーニングされたブラック ボックス VAE に匹敵するパフォーマンスを持つ畳み込み変分オートエンコーダー (VAE) 用の透過的なバックボーン モデルを構築することで、この手法を改良しました。
さらに、VAE の内部畳み込み層を分析して、AD アプリケーションで危険なトラフィック シナリオを引き起こす可能性のある再構築不良の内部原因を説明するためのカスタム特徴マップ視覚化手法を提案します。
2 番目の重要な貢献では、予測ネットワークの内部ダイナミクスと機能の関連性の説明と評価手法を提案します。
私たちは、コンピューター ビジョン ドメインで長短期記憶 (LSTM) ネットワークをテストし、予測モデルの予測可能性と将来のアプリケーションでの潜在的な安全性を評価します。
都市交通状況における歩行者の知覚を予測する VAE-LSTM 世界モデルを分析することで、私たちの手法を紹介します。

要約(オリジナル)

In Autonomous Driving (AD) transparency and safety are paramount, as mistakes are costly. However, neural networks used in AD systems are generally considered black boxes. As a countermeasure, we have methods of explainable AI (XAI), such as feature relevance estimation and dimensionality reduction. Coarse graining techniques can also help reduce dimensionality and find interpretable global patterns. A specific coarse graining method is Renormalization Groups from statistical physics. It has previously been applied to Restricted Boltzmann Machines (RBMs) to interpret unsupervised learning. We refine this technique by building a transparent backbone model for convolutional variational autoencoders (VAE) that allows mapping latent values to input features and has performance comparable to trained black box VAEs. Moreover, we propose a custom feature map visualization technique to analyze the internal convolutional layers in the VAE to explain internal causes of poor reconstruction that may lead to dangerous traffic scenarios in AD applications. In a second key contribution, we propose explanation and evaluation techniques for the internal dynamics and feature relevance of prediction networks. We test a long short-term memory (LSTM) network in the computer vision domain to evaluate the predictability and in future applications potentially safety of prediction models. We showcase our methods by analyzing a VAE-LSTM world model that predicts pedestrian perception in an urban traffic situation.

arxiv情報

著者 Mohamed Roshdi,Julian Petzold,Mostafa Wahby,Hussein Ebrahim,Mladen Berekovic,Heiko Hamann
発行日 2024-04-26 11:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MA パーマリンク