Physical Deep Reinforcement Learning Towards Safety Guarantee

要約

深層強化学習 (DRL) は、高次元の状態および/またはアクション空間を持つ自律システムの多くの複雑な意思決定タスクで大きな成功を収めています。
ただし、安全性と安定性は、安全性が重要な自律システムへの DRL の適用を妨げる主要な懸念事項として残っています。
この懸念に対処するために、物理的な深層強化学習フレームワークである Phy-DRL を提案しました。
Phy-DRL は、i) リアプノフのような報酬、および ii) 残差制御 (つまり、物理モデルベースの制御とデータ駆動型制御の統合) という 2 つのアーキテクチャ設計で斬新です。
同時の物理的報酬と残余制御により、Phy-DRL は (数学的に) 証明可能な安全性と安定性が保証されます。
倒立振子での実験を通じて、Phy-DRL 機能が安全性と安定性を保証し、堅牢性を強化すると同時に、トレーニングを大幅に加速し、報酬を拡大することを示しました。

要約(オリジナル)

Deep reinforcement learning (DRL) has achieved tremendous success in many complex decision-making tasks of autonomous systems with high-dimensional state and/or action spaces. However, the safety and stability still remain major concerns that hinder the applications of DRL to safety-critical autonomous systems. To address the concerns, we proposed the Phy-DRL: a physical deep reinforcement learning framework. The Phy-DRL is novel in two architectural designs: i) Lyapunov-like reward, and ii) residual control (i.e., integration of physics-model-based control and data-driven control). The concurrent physical reward and residual control empower the Phy-DRL the (mathematically) provable safety and stability guarantees. Through experiments on the inverted pendulum, we show that the Phy-DRL features guaranteed safety and stability and enhanced robustness, while offering remarkably accelerated training and enlarged reward.

arxiv情報

著者 Hongpeng Cao,Yanbing Mao,Lui Sha,Marco Caccamo
発行日 2023-03-29 17:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク