要約
強化学習 (RL) ポリシーの安全な動作を保証することは、RL の汎用性と拡張性にもかかわらず、安全性が重要なアプリケーションにとって大きな課題となります。
これに対処するために、制御理論から学習された値関数に検証方法を適用する新しいアプローチを提案します。
安全確保のためのタスク構造を分析することにより、価値関数と制御バリア関数の間のリンクを確立する独自の定理を定式化します。
さらに、安全制御タスクにおける価値関数を検証するための新しい指標と、学習を改善するための実際的な実装の詳細を提案します。
私たちの研究は、RL ポリシーの制御理論から多様な検証技術を解き放つ、証明書学習のための新しい方法を提示し、RL ベースの制御システムの一般的でスケーラブルで検証可能な設計のための正式なフレームワークに向けた重要な一歩を示しています。
要約(オリジナル)
Guaranteeing safe behaviour of reinforcement learning (RL) policies poses significant challenges for safety-critical applications, despite RL’s generality and scalability. To address this, we propose a new approach to apply verification methods from control theory to learned value functions. By analyzing task structures for safety preservation, we formalize original theorems that establish links between value functions and control barrier functions. Further, we propose novel metrics for verifying value functions in safe control tasks and practical implementation details to improve learning. Our work presents a novel method for certificate learning, which unlocks a diversity of verification techniques from control theory for RL policies, and marks a significant step towards a formal framework for the general, scalable, and verifiable design of RL-based control systems.
arxiv情報
著者 | Daniel C. H. Tan,Fernando Acero,Robert McCarthy,Dimitrios Kanoulas,Zhibin Li |
発行日 | 2023-06-08 22:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google