Your Value Function is a Control Barrier Function: Verification of Learned Policies using Control Theory

要約

RL は非常に汎用性が高く拡張性がありますが、ポリシーの動作を検証することが難しいため、セーフティ クリティカルなアプリケーションにとっては課題が生じます。
これを解決するために、制御理論で使用される検証手法を学習された値関数に適用することを提案します。
安全確保のための単純なタスク構造を解析することで、価値関数とバリア機能を制御する独自の定理を導き出します。
これに触発されて、安全制御タスクにおける価値関数を検証するための新しい指標と、学習を向上させる実践的な実装の詳細を提案します。
証明書学習のための新しい方法を提案することに加えて、私たちの研究は、RL ポリシーの制御理論における豊富な検証方法を明らかにし、制御システムの一般的でスケーラブルで検証可能な設計のためのフレームワークへの第一歩を表します。

要約(オリジナル)

Although RL is highly general and scalable, the difficulty of verifying policy behaviours poses challenges for safety-critical applications. To remedy this, we propose to apply verification methods used in control theory to learned value functions. By analyzing a simple task structure for safety preservation, we derive original theorems linking value functions to control barrier functions. Inspired by this, we propose novel metrics for verification of value functions in safe control tasks, and practical implementation details that improve learning. Besides proposing a novel method for certificate learning, our work unlocks a wealth of verification methods in control theory for RL policies, and represents a first step towards a framework for general, scalable, and verifiable design of control systems.

arxiv情報

著者 Daniel C. H. Tan,Fernando Acero,Robert McCarthy,Dimitrios Kanoulas,Zhibin Alex Li
発行日 2023-06-06 21:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク