Policy Bifurcation in Safe Reinforcement Learning

要約

安全強化学習 (RL) は、制約のある最適制御問題に対する高度なソリューションを提供します。
安全な RL に関する既存の研究は、政策機能の継続性を暗黙のうちに想定しており、政策はスムーズで中断のない方法で状態をアクションにマッピングします。
ただし、私たちの調査では、一部のシナリオでは、実現可能なポリシーは不連続または多値である必要があり、不連続な局所最適値間の補間は必然的に制約違反につながる可能性があることがわかりました。
私たちは、このような現象の発生メカニズムを初めて特定し、トポロジカル解析を用いて、到達可能なタプルの収縮性に対応する安全な RL におけるポリシー分岐の存在を厳密に証明しました。
私たちの定理は、障害物のない状態空間が単純に接続されていないシナリオでは、実行可能なポリシーを分岐する必要があり、その出力アクションが状態の変化に応じて突然変化する必要があることを明らかにしています。
このような分岐ポリシーをトレーニングするために、ポリシー出力として混合ガウス分布を利用する、マルチモーダル ポリシー最適化 (MUPO) と呼ばれる安全な RL アルゴリズムを提案します。
分岐した動作は、最も高い混合係数を持つガウス成分を選択することによって実現できます。
さらに、MUPO はスペクトル正規化と順方向 KL 発散も統合して、さまざまなモードを探索するポリシーの機能を強化します。
車両制御タスクを使った実験では、アルゴリズムが分岐ポリシーを首尾よく学習し、満足のいく安全性を確保する一方で、連続ポリシーでは避けられない制約違反が発生することがわかりました。

要約(オリジナル)

Safe reinforcement learning (RL) offers advanced solutions to constrained optimal control problems. Existing studies in safe RL implicitly assume continuity in policy functions, where policies map states to actions in a smooth, uninterrupted manner; however, our research finds that in some scenarios, the feasible policy should be discontinuous or multi-valued, interpolating between discontinuous local optima can inevitably lead to constraint violations. We are the first to identify the generating mechanism of such a phenomenon, and employ topological analysis to rigorously prove the existence of policy bifurcation in safe RL, which corresponds to the contractibility of the reachable tuple. Our theorem reveals that in scenarios where the obstacle-free state space is non-simply connected, a feasible policy is required to be bifurcated, meaning its output action needs to change abruptly in response to the varying state. To train such a bifurcated policy, we propose a safe RL algorithm called multimodal policy optimization (MUPO), which utilizes a Gaussian mixture distribution as the policy output. The bifurcated behavior can be achieved by selecting the Gaussian component with the highest mixing coefficient. Besides, MUPO also integrates spectral normalization and forward KL divergence to enhance the policy’s capability of exploring different modes. Experiments with vehicle control tasks show that our algorithm successfully learns the bifurcated policy and ensures satisfying safety, while a continuous policy suffers from inevitable constraint violations.

arxiv情報

著者 Wenjun Zou,Yao Lv,Jie Li,Yujie Yang,Shengbo Eben Li,Jingliang Duan,Xianyuan Zhan,Jingjing Liu,Yaqin Zhang,Keqiang Li
発行日 2024-03-20 03:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク