要約
安全な強化学習 (RL) は、環境と対話することによって制約を満たすポリシーをトレーニングします。
私たちは、オフライン データセットから安全なポリシーを学習するという、より困難な問題に取り組むことを目指しています。
私たちは、新しい多目的最適化の観点からオフライン安全な RL 問題を研究し、問題の困難さを特徴付ける $\epsilon$-reducible 概念を提案します。
安全性とタスクのパフォーマンスの間には固有のトレードオフがあるため、展開中にトレードオフを動的に調整できる制約付き意思決定変換 (CDT) アプローチを提案するようになりました。
広範な実験により、適応性があり、安全で、堅牢で、報酬の高い政策を学習する際の、提案された方法の利点が示されています。
CDT は、すべてのタスクにわたって同じハイパーパラメーターを使用して、そのバリアントや強力なオフライン安全な RL ベースラインよりも大幅に優れたパフォーマンスを示し、同時にさまざまな制約しきい値に対するゼロショット適応機能を維持するため、制約のある現実世界の RL により適したアプローチとなります。
コードは https://github.com/liuzuxin/OSRL で入手できます。
要約(オリジナル)
Safe reinforcement learning (RL) trains a constraint satisfaction policy by interacting with the environment. We aim to tackle a more challenging problem: learning a safe policy from an offline dataset. We study the offline safe RL problem from a novel multi-objective optimization perspective and propose the $\epsilon$-reducible concept to characterize problem difficulties. The inherent trade-offs between safety and task performance inspire us to propose the constrained decision transformer (CDT) approach, which can dynamically adjust the trade-offs during deployment. Extensive experiments show the advantages of the proposed method in learning an adaptive, safe, robust, and high-reward policy. CDT outperforms its variants and strong offline safe RL baselines by a large margin with the same hyperparameters across all tasks, while keeping the zero-shot adaptation capability to different constraint thresholds, making our approach more suitable for real-world RL under constraints. The code is available at https://github.com/liuzuxin/OSRL.
arxiv情報
著者 | Zuxin Liu,Zijian Guo,Yihang Yao,Zhepeng Cen,Wenhao Yu,Tingnan Zhang,Ding Zhao |
発行日 | 2023-06-21 06:07:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google