要約
現実世界の多くの領域では、不確実な環境での安全な意思決定が必要です。
この研究では、この重要な問題にアプローチするための深層強化学習フレームワークを紹介します。
私たちは遷移モデルに対する分布を考慮し、コヒーレントな歪みリスク尺度の使用を通じてモデルの不確実性に対してリスク回避の観点を適用します。
我々は、このフレームワークが分布的に堅牢な安全な強化学習問題の特定のクラスと同等であることを示すことで、このフレームワークの堅牢性を保証します。
ただし、深層強化学習における堅牢性に対する既存のアプローチとは異なり、私たちの定式化にはミニマックス最適化が含まれていません。
これにより、単一のトレーニング環境からの標準データ収集のみを必要とするアプローチの効率的でモデルフリーの実装が可能になります。
安全制約のある連続制御タスクの実験では、当社のフレームワークがさまざまな混乱のあるテスト環境全体で展開時に堅牢なパフォーマンスと安全性を生み出すことを実証しました。
要約(オリジナル)
Many real-world domains require safe decision making in uncertain environments. In this work, we introduce a deep reinforcement learning framework for approaching this important problem. We consider a distribution over transition models, and apply a risk-averse perspective towards model uncertainty through the use of coherent distortion risk measures. We provide robustness guarantees for this framework by showing it is equivalent to a specific class of distributionally robust safe reinforcement learning problems. Unlike existing approaches to robustness in deep reinforcement learning, however, our formulation does not involve minimax optimization. This leads to an efficient, model-free implementation of our approach that only requires standard data collection from a single training environment. In experiments on continuous control tasks with safety constraints, we demonstrate that our framework produces robust performance and safety at deployment time across a range of perturbed test environments.
arxiv情報
著者 | James Queeney,Mouhacine Benosman |
発行日 | 2023-10-26 17:07:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google