Improving Deep Policy Gradients with Value Function Search

要約

Deep Policy Gradient (PG) アルゴリズムは、値ネットワークを使用して、パラメーター化されたポリシーの学習を促進し、勾配推定の分散を減らします。
しかし、価値関数の近似は局所的な最適化に行き詰まり、実際の収益に合わせるのに苦労し、分散削減の有効性を制限し、政策を次善のパフォーマンスに導きます。
このホワイト ペーパーでは、値の近似値の改善と、値の予測、分散の削減、真の勾配との勾配推定値の相関など、Deep PG プリミティブへの影響の分析に焦点を当てています。
この目的のために、摂動値ネットワークの母集団を使用してより良い近似を検索する値関数検索を導入します。
私たちのフレームワークは、追加の環境相互作用、勾配計算、またはアンサンブルを必要とせず、価値ネットワークがトレーニングする教師あり学習タスクを強化するための計算コストの低いアプローチを提供します。
重要なことに、Deep PG プリミティブを改善すると、サンプル効率が向上し、共通の継続的な制御ベンチマーク ドメインを使用してより高い収益をもたらすポリシーが得られることを示しています。

要約(オリジナル)

Deep Policy Gradient (PG) algorithms employ value networks to drive the learning of parameterized policies and reduce the variance of the gradient estimates. However, value function approximation gets stuck in local optima and struggles to fit the actual return, limiting the variance reduction efficacy and leading policies to sub-optimal performance. This paper focuses on improving value approximation and analyzing the effects on Deep PG primitives such as value prediction, variance reduction, and correlation of gradient estimates with the true gradient. To this end, we introduce a Value Function Search that employs a population of perturbed value networks to search for a better approximation. Our framework does not require additional environment interactions, gradient computations, or ensembles, providing a computationally inexpensive approach to enhance the supervised learning task on which value networks train. Crucially, we show that improving Deep PG primitives results in improved sample efficiency and policies with higher returns using common continuous control benchmark domains.

arxiv情報

著者 Enrico Marchesini,Christopher Amato
発行日 2023-02-20 18:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク