Utilizing Explainability Techniques for Reinforcement Learning Model Assurance

要約

説明可能な強化学習 (XRL) は、深層強化学習 (DRL) モデルの意思決定プロセスに透明性を提供し、実際のユースケースでのユーザーの信頼と採用を高めることができます。
XRL 技術を利用することで、研究者は展開前にトレーニング済みの DRL モデル内の潜在的な脆弱性を特定できるため、システムによるミッションの失敗やミスの可能性を制限できます。
このペーパーでは、オープンソースの Python ライブラリである ARLIN (Assured RL Model Interrogation) ツールキットを紹介します。このツールキットは、人間が解釈可能な詳細な説明出力を通じて、トレーニングされた DRL モデル内の潜在的な脆弱性とクリティカル ポイントを特定します。
ARLIN の有効性を説明するために、公開されている DRL モデルの説明可能性の視覚化と脆弱性分析を提供します。
オープンソース コード リポジトリは、https://github.com/mitre/arlin からダウンロードできます。

要約(オリジナル)

Explainable Reinforcement Learning (XRL) can provide transparency into the decision-making process of a Deep Reinforcement Learning (DRL) model and increase user trust and adoption in real-world use cases. By utilizing XRL techniques, researchers can identify potential vulnerabilities within a trained DRL model prior to deployment, therefore limiting the potential for mission failure or mistakes by the system. This paper introduces the ARLIN (Assured RL Model Interrogation) Toolkit, an open-source Python library that identifies potential vulnerabilities and critical points within trained DRL models through detailed, human-interpretable explainability outputs. To illustrate ARLIN’s effectiveness, we provide explainability visualizations and vulnerability analysis for a publicly available DRL model. The open-source code repository is available for download at https://github.com/mitre/arlin.

arxiv情報

著者 Alexander Tapley,Kyle Gatesman,Luis Robaina,Brett Bissey,Joseph Weissman
発行日 2023-11-27 14:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク