Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization

要約

強化学習 (RL) は、ほとんどのロボット制御タスクで有望な結果を達成しています。
学習ベースのコントローラーの安全性は、コントローラーの有効性を確保する上で不可欠な概念です。
現在の方法では、トレーニング中に全体の一貫性制約が採用されるため、初期段階での探索が非効率になります。
この論文では、探査効率と制約満足度のバランスを取るための、追加安全予算による制約付きポリシー最適化 (ESB-CPO) というアルゴリズムを提案します。
初期段階では、私たちの方法は、私たちが提案する新しい指標を利用して、安全でない移行の実際的な制約を緩和します(追加の安全予算を追加します)。
トレーニング プロセスにより、最適化問題の制約が厳しくなります。
一方、理論分析と実際の実験は、私たちの方法が最終トレーニング段階でコスト制限の要求を徐々に満たしていることを示しています。
Safety-Gym および Bullet-Safety-Gym ベンチマークで評価した場合、私たちの手法は安全性と最適性の点でベースライン アルゴリズムよりも優れていることがわかりました。
驚くべきことに、私たちの方法は、ベースラインと比較して、同じコスト制限の下で顕著なパフォーマンスの向上を実現します。

要約(オリジナル)

Reinforcement learning (RL) has achieved promising results on most robotic control tasks. Safety of learning-based controllers is an essential notion of ensuring the effectiveness of the controllers. Current methods adopt whole consistency constraints during the training, thus resulting in inefficient exploration in the early stage. In this paper, we propose an algorithm named Constrained Policy Optimization with Extra Safety Budget (ESB-CPO) to strike a balance between the exploration efficiency and the constraints satisfaction. In the early stage, our method loosens the practical constraints of unsafe transitions (adding extra safety budget) with the aid of a new metric we propose. With the training process, the constraints in our optimization problem become tighter. Meanwhile, theoretical analysis and practical experiments demonstrate that our method gradually meets the cost limit’s demand in the final training stage. When evaluated on Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its advantages over baseline algorithms in terms of safety and optimality. Remarkably, our method gains remarkable performance improvement under the same cost limit compared with baselines.

arxiv情報

著者 Haotian Xu,Shengjie Wang,Zhaolei Wang,Yunzhe Zhang,Qing Zhuo,Yang Gao,Tao Zhang
発行日 2023-07-28 01:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク