Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization

要約

強化学習 (RL) は、ほとんどのロボット制御タスクで有望な結果を達成しています。
学習ベースのコントローラーの安全性は、コントローラーの有効性を確保する上で不可欠な概念です。
現在の方法は、トレーニング中に全体の一貫性制約を採用しているため、初期段階で非効率的な調査が行われます。
この論文では、調査と制約の間のバランスをとるために、追加の安全予算を使用した制約付きポリシー最適化 (ESB-CPO) アルゴリズムを提案します。
初期段階では、私たちの方法は、私たちが提案する新しいメトリックの助けを借りて、安全でない遷移の実際的な制約を緩めます (追加の安全バジェットを追加します)。
トレーニング プロセスにより、最適化問題の制約が厳しくなります。
一方、理論的分析と実際の実験は、最終的なトレーニング段階で、私たちの方法がコスト制限の要求を徐々に満たすことを示しています。
Safety-Gym および Bullet-Safety-Gym ベンチマークで評価すると、安全性と最適性の点でベースライン アルゴリズムよりも優れていることが示されました。
驚くべきことに、私たちの方法は、CPO アルゴリズムと比較して、同じコスト制限の下で顕著なパフォーマンスの向上を実現します。

要約(オリジナル)

Reinforcement learning (RL) has achieved promising results on most robotic control tasks. Safety of learning-based controllers is an essential notion of ensuring the effectiveness of the controllers. Current methods adopt whole consistency constraints during the training, thus resulting in inefficient exploration in the early stage. In this paper, we propose a Constrained Policy Optimization with Extra Safety Budget (ESB-CPO) algorithm to strike a balance between the exploration and the constraints. In the early stage, our method loosens the practical constraints of unsafe transitions (adding extra safety budget) with the aid of a new metric we propose. With the training process, the constraints in our optimization problem become tighter. Meanwhile, theoretical analysis and practical experiments demonstrate that our method gradually meets the cost limit’s demand in the final training stage. When evaluated on Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its advantages over baseline algorithms in terms of safety and optimality. Remarkably, our method gains remarkable performance improvement under the same cost limit compared with CPO algorithm.

arxiv情報

著者 Haotian Xu,Shengjie Wang,Zhaolei Wang,Qing Zhuo,Tao Zhang
発行日 2023-02-28 06:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク