要約
深層強化学習の信頼できる展開には、堅牢性と安全性が重要です。
現実世界の意思決定アプリケーションには、トレーニング中のデータ収集プロセスについて限定的な仮定を置きながら、一般的な環境障害が存在する場合でも堅牢なパフォーマンスと安全性を保証できるアルゴリズムが必要です。
この目標を達成するために、最適な輸送コストの不確実性セットの使用による堅牢性を組み込んだ安全な強化学習フレームワークを導入します。
最適なトランスポート摂動を適用してワーストケースの仮想状態遷移を構築することに基づいた効率的な実装を提供します。これはトレーニング中のデータ収集に影響を与えず、シミュレーターへの詳細なアクセスを必要としません。
安全制約のある連続制御タスクの実験では、私たちのアプローチは、標準的な安全な強化学習と比較して展開時の安全性を大幅に向上させながら、堅牢なパフォーマンスを実証します。
要約(オリジナル)
Robustness and safety are critical for the trustworthy deployment of deep reinforcement learning. Real-world decision making applications require algorithms that can guarantee robust performance and safety in the presence of general environment disturbances, while making limited assumptions on the data collection process during training. In order to accomplish this goal, we introduce a safe reinforcement learning framework that incorporates robustness through the use of an optimal transport cost uncertainty set. We provide an efficient implementation based on applying Optimal Transport Perturbations to construct worst-case virtual state transitions, which does not impact data collection during training and does not require detailed simulator access. In experiments on continuous control tasks with safety constraints, our approach demonstrates robust performance while significantly improving safety at deployment time compared to standard safe reinforcement learning.
arxiv情報
著者 | James Queeney,Erhan Can Ozcan,Ioannis Ch. Paschalidis,Christos G. Cassandras |
発行日 | 2024-03-28 16:08:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google