SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents

要約

深層強化学習 (DRL) は、エージェントが環境との対話を通じて最適なポリシーを学習できるようにすることで、自動運転、ヘルスケア、ロボティクスなどのさまざまな分野で大きな進歩をもたらしました。
ただし、セーフティ クリティカルな領域での DRL の適用には、特に学習されたポリシーの安全性に関して課題があります。
報酬の最大化に重点を置く DRL エージェントは、安全でない行動を選択し、安全違反につながる可能性があります。
したがって、実行時の安全性監視は、特に予測不可能で動的な環境において、これらのエージェントの安全な動作を保証するために不可欠です。
このペーパーでは、DRL エージェント向けに特別に設計されたブラックボックス安全監視アプローチである SMARLA を紹介します。
SMARLA は機械学習を利用して、実行中のエージェントの動作を観察することで安全違反を予測します。
このアプローチは、特定の状態でアクションを実行することで期待される報酬を反映する Q 値に基づいています。
SMARLA は状態抽象化を採用して状態空間の複雑さを軽減し、監視モデルの予測機能を強化します。
このような抽象化により、危険な状態を早期に検出できるようになり、インシデントが発生する前に修正および予防措置を実行できるようになります。
私たちは、DRL 研究で広く使用されている 3 つのよく知られたケーススタディに基づいて SMARLA を定量的および定性的に検証しました。
実証結果によると、SMARLA は誤検知率が低く、安全性違反を正確に予測し、違反が発生する前の早い段階、つまりエージェントの実行の約半分で違反を予測できることが明らかになりました。
また、早期検出と低い誤検知率の間のトレードオフを目的とした安全メカニズムをトリガーするための、予測された違反確率の信頼区間に基づくさまざまな決定基準についても説明します。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has made significant advancements in various fields, such as autonomous driving, healthcare, and robotics, by enabling agents to learn optimal policies through interactions with their environments. However, the application of DRL in safety-critical domains presents challenges, particularly concerning the safety of the learned policies. DRL agents, which are focused on maximizing rewards, may select unsafe actions, leading to safety violations. Runtime safety monitoring is thus essential to ensure the safe operation of these agents, especially in unpredictable and dynamic environments. This paper introduces SMARLA, a black-box safety monitoring approach specifically designed for DRL agents. SMARLA utilizes machine learning to predict safety violations by observing the agent’s behavior during execution. The approach is based on Q-values, which reflect the expected reward for taking actions in specific states. SMARLA employs state abstraction to reduce the complexity of the state space, enhancing the predictive capabilities of the monitoring model. Such abstraction enables the early detection of unsafe states, allowing for the implementation of corrective and preventive measures before incidents occur. We quantitatively and qualitatively validated SMARLA on three well-known case studies widely used in DRL research. Empirical results reveal that SMARLA is accurate at predicting safety violations, with a low false positive rate, and can predict violations at an early stage, approximately halfway through the execution of the agent, before violations occur. We also discuss different decision criteria, based on confidence intervals of the predicted violation probabilities, to trigger safety mechanisms aiming at a trade-off between early detection and low false positive rates.

arxiv情報

著者 Amirhossein Zolfagharian,Manel Abdellatif,Lionel C. Briand,Ramesh S
発行日 2024-10-22 17:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク