要約
タイトル:プロセス制御のための制御不変集合拡張強化学習:サンプリング効率の改善と安定性の保証
要約:
– 強化学習(RL)は、安全性に関する制約を扱う能力により、現実世界のRLアルゴリズムの応用に重要な役割を果たすため、特に安全なRLへの関心が高まっている。
– 本研究では、制御不変集合(CIS)を活用して安定性保証とサンプリング効率の向上を図る、制御不変集合拡張強化学習という新しいアプローチを提案する。
– このアプローチは、オフラインとオンラインの2つの学習段階から構成されている。オフライン段階では、CISが報酬の設計、初期状態のサンプリング、および状態リセット手順に組み込まれる。オンライン段階では、CISが安定基準として機能するため、状態がCISの外側にある場合にRLが再学習される。 CISの明示的な形式を利用するバックアップテーブルが取得され、オンラインでの安定性が保証される。
– 本アプローチを評価するために、シミュレートされた化学反応器に適用する。その結果、オフライントレーニング中のサンプリング効率の大幅な改善と、オンラインの実装における閉ループ安定性が示された。
要約(オリジナル)
Reinforcement learning (RL) is an area of significant research interest, and safe RL in particular is attracting attention due to its ability to handle safety-driven constraints that are crucial for real-world applications of RL algorithms. This work proposes a novel approach to RL training, called control invariant set (CIS) enhanced RL, which leverages the benefits of CIS to improve stability guarantees and sampling efficiency. The approach consists of two learning stages: offline and online. In the offline stage, CIS is incorporated into the reward design, initial state sampling, and state reset procedures. In the online stage, RL is retrained whenever the state is outside of CIS, which serves as a stability criterion. A backup table that utilizes the explicit form of CIS is obtained to ensure the online stability. To evaluate the proposed approach, we apply it to a simulated chemical reactor. The results show a significant improvement in sampling efficiency during offline training and closed-loop stability in the online implementation.
arxiv情報
著者 | Song Bo,Xunyuan Yin,Jinfeng Liu |
発行日 | 2023-04-11 21:27:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI