要約
この論文では、セーフティ クリティカルな自律システム向けの物理制御深層強化学習 (DRL) フレームワークである Phy-DRL を提案します。
Phy-DRL には、3 つの際立った不変式埋め込み設計があります。i) 残差アクション ポリシー (つまり、データ駆動型 DRL アクション ポリシーと物理モデルベースのアクション ポリシーの統合)、ii) 自動的に構築された安全性埋め込み報酬、および iii)
リンク編集やアクティベーション編集を含む、物理モデルに基づくニューラル ネットワーク (NN) 編集。
理論的には、Phy-DRL は、1) 数学的に証明可能な安全性の保証、2) アクション価値関数とアクション ポリシーに関する物理知識に対する批評家と俳優のネットワークの厳密な遵守を示します。
最後に、カートポールシステムと四足ロボットで Phy-DRL を評価します。
この実験は理論的結果を検証し、Phy-DRL が純粋なデータ駆動型 DRL やモデルベースの設計のみと比較して安全性が保証されている一方で、著しく少ない学習パラメータと安全性保証に向けた迅速なトレーニングを提供していることを実証しています。
要約(オリジナル)
This paper proposes the Phy-DRL: a physics-regulated deep reinforcement learning (DRL) framework for safety-critical autonomous systems. The Phy-DRL has three distinguished invariant-embedding designs: i) residual action policy (i.e., integrating data-driven-DRL action policy and physics-model-based action policy), ii) automatically constructed safety-embedded reward, and iii) physics-model-guided neural network (NN) editing, including link editing and activation editing. Theoretically, the Phy-DRL exhibits 1) a mathematically provable safety guarantee and 2) strict compliance of critic and actor networks with physics knowledge about the action-value function and action policy. Finally, we evaluate the Phy-DRL on a cart-pole system and a quadruped robot. The experiments validate our theoretical results and demonstrate that Phy-DRL features guaranteed safety compared to purely data-driven DRL and solely model-based design while offering remarkably fewer learning parameters and fast training towards safety guarantee.
arxiv情報
著者 | Hongpeng Cao,Yanbing Mao,Lui Sha,Marco Caccamo |
発行日 | 2024-07-08 15:08:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google