要約
強化学習 (RL) は動的システムを制御するための強力な方法ですが、その学習メカニズムにより、重要なシステムの安全性を損なう予測不可能な動作が発生する可能性があります。
ここでは、予測されるシステム動作に対する安全制約をハードコーディングする制御正則化子と RL ポリシーを組み合わせることで RL の安全性を確保する、適応制御正則化を備えた RL (RL-ACR) を提案します。
適応性は、ポリシーの組み合わせの累積報酬を最大化するようにトレーニングされた学習可能な「フォーカス」重みを使用することによって実現されます。
RL ポリシーがオフポリシー学習を通じて改善されるにつれて、フォーカス ウェイトは RL ポリシーへの依存度を徐々に高めることにより、初期の準最適戦略を改善します。
私たちは、重要な医療制御アプリケーションにおける RL-ACR の有効性を実証し、4 つの古典的な制御環境における RL-ACR のパフォーマンスをさらに調査します。
要約(オリジナル)
Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR) that ensures RL safety by combining the RL policy with a control regularizer that hard-codes safety constraints over forecasted system behaviors. The adaptability is achieved by using a learnable ‘focus’ weight trained to maximize the cumulative reward of the policy combination. As the RL policy improves through off-policy learning, the focus weight improves the initial sub-optimum strategy by gradually relying more on the RL policy. We demonstrate the effectiveness of RL-ACR in a critical medical control application and further investigate its performance in four classic control environments.
arxiv情報
著者 | Haozhe Tian,Homayoun Hamedmoghadam,Robert Shorten,Pietro Ferraro |
発行日 | 2024-04-23 16:35:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google