Analyzing Generalization in Policy Networks: A Case Study with the Double-Integrator System

要約

多様な連続制御タスクにおける深層強化学習 (DRL) ポリシー ネットワークの広範な利用により、入力状態ノルムがトレーニング環境よりも大きい拡張状態空間でのパフォーマンスの低下に関する疑問が生じています。
この論文は、状態分割として知られる新しい分析手法を使用して、拡張された状態空間を扱う際のこのようなパフォーマンス低下に寄与する根本的な要因を明らかにすることを目的としています。
単なる事後の説明ツールとして状態分割を使用する従来のアプローチとは対照的に、私たちの方法論は DRL ポリシー ネットワークの本質的な特性を掘り下げます。
具体的には、状態空間の拡張により活性化関数 $\tanh$ が可飽和性を示し、その結果、状態分割境界が非線形から線形に変換されることを示します。
私たちの分析は二重積分器システムのパラダイムに焦点を当てており、この線形性への段階的な移行がバンバン制御を彷彿とさせる制御動作を与えることを明らかにしています。
ただし、分割境界の固有の線形性により、理想的なバンバン制御の達成が妨げられ、避けられないオーバーシュートが発生します。
多様な RL アルゴリズムを使用した当社の実験調査では、このパフォーマンス現象が DRL ポリシー ネットワークの固有の属性に由来し、さまざまな最適化アルゴリズムにわたって一貫性を保っていることが証明されました。

要約(オリジナル)

Extensive utilization of deep reinforcement learning (DRL) policy networks in diverse continuous control tasks has raised questions regarding performance degradation in expansive state spaces where the input state norm is larger than that in the training environment. This paper aims to uncover the underlying factors contributing to such performance deterioration when dealing with expanded state spaces, using a novel analysis technique known as state division. In contrast to prior approaches that employ state division merely as a post-hoc explanatory tool, our methodology delves into the intrinsic characteristics of DRL policy networks. Specifically, we demonstrate that the expansion of state space induces the activation function $\tanh$ to exhibit saturability, resulting in the transformation of the state division boundary from nonlinear to linear. Our analysis centers on the paradigm of the double-integrator system, revealing that this gradual shift towards linearity imparts a control behavior reminiscent of bang-bang control. However, the inherent linearity of the division boundary prevents the attainment of an ideal bang-bang control, thereby introducing unavoidable overshooting. Our experimental investigations, employing diverse RL algorithms, establish that this performance phenomenon stems from inherent attributes of the DRL policy network, remaining consistent across various optimization algorithms.

arxiv情報

著者 Ruining Zhang,Haoran Han,Maolong Lv,Qisong Yang,Jian Cheng
発行日 2023-12-31 11:05:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク