Example When Local Optimal Policies Contain Unstable Control

要約

私たちは、強化学習 (RL) がロバスト性と一般化に苦労する理由を理解するための新しい視点を提供します。
例によって、局所最適ポリシーには一部の動的パラメータに対する不安定な制御が含まれる可能性があり、そのような不安定性への過剰適合はロバスト性と一般化を低下させる可能性があることを示します。
ニューラル制御の短縮解析により、制御ネットワークの入力勾配に関して安定した制御と不安定な制御の間に境界が存在することが明らかになりました。
これらの安定性の境界を無視して、学習エージェントは、一部の動的パラメーターの不安定性を引き起こすアクションが期待される収益を向上させることができる場合、それらのアクションを高価値のアクションとしてラベル付けする可能性があります。
このような不安定性のごく一部は、実証研究では注目を集めない可能性がありますが、現実世界のアプリケーションでは隠れたリスクとなります。
これらの不安定性は過剰適合を通じて現れる可能性があり、堅牢性と一般化の失敗につながります。
我々は、この問題を解決するために安定性制約と端末制約を提案し、近接ポリシー最適化の例で実証します。

要約(オリジナル)

We provide a new perspective to understand why reinforcement learning (RL) struggles with robustness and generalization. We show, by examples, that local optimal policies may contain unstable control for some dynamic parameters and overfitting to such instabilities can deteriorate robustness and generalization. Contraction analysis of neural control reveals that there exists boundaries between stable and unstable control with respect to the input gradients of control networks. Ignoring those stability boundaries, learning agents may label the actions that cause instabilities for some dynamic parameters as high value actions if those actions can improve the expected return. The small fraction of such instabilities may not cause attention in the empirical studies, a hidden risk for real-world applications. Those instabilities can manifest themselves via overfitting, leading to failures in robustness and generalization. We propose stability constraints and terminal constraints to solve this issue, demonstrated with a proximal policy optimization example.

arxiv情報

著者 Bing Song,Jean-Jacques Slotine,Quang-Cuong Pham
発行日 2023-11-02 01:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク