要約
深層強化学習 (RL) ポリシーは、安全でない動作を示す可能性があり、解釈が困難です。
これらの課題に対処するために、RL ポリシー モデル チェック (RL ポリシーが危険な動作を示すかどうかを判断する手法) と、共活性化グラフ分析 (ニューロンの活性化パターンを分析することでニューラル ネットワークの内部動作をマッピングする手法) を組み合わせます。
安全な RL ポリシーの一連の意思決定についての洞察。
この組み合わせにより、RL ポリシーの内部動作を解釈して安全な意思決定を行うことができます。
さまざまな実験でその応用性を実証します。
要約(オリジナル)
Deep reinforcement learning (RL) policies can demonstrate unsafe behaviors and are challenging to interpret. To address these challenges, we combine RL policy model checking–a technique for determining whether RL policies exhibit unsafe behaviors–with co-activation graph analysis–a method that maps neural network inner workings by analyzing neuron activation patterns–to gain insight into the safe RL policy’s sequential decision-making. This combination lets us interpret the RL policy’s inner workings for safe decision-making. We demonstrate its applicability in various experiments.
arxiv情報
著者 | Dennis Gross,Helge Spieker |
発行日 | 2025-01-06 17:07:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google