On Many-Actions Policy Gradient

要約

タイトル:多数のアクション方策勾配法について
要約:
– 複数の行動サンプルが各状態に多数の方策勾配の分散を探究する
– 多数のアクション勾配の最適条件を導き、比較して、比例的に拡張された軌跡を持つ単一のアクションエージェントと比較する
– 多数の行動サンプリングのための動力学モデルを活用するアプローチであるMBMAを提案する。既存の多数行動SPGの実装に関連する問題に対処し、バイアスを下げ、モデルシミュレーションされたロールアウトの状態から推定されたSPGと同等の分散を生じる
– MBMAバイアスと分散構造が予測によって予想されるものと一致することがわかり、20種類の継続的なアクション環境において、事前多数行動、モデルフリー、モデルベースのオンポリシーアクション勾配法SPGを比較して、MBMAは改善されたサンプル効率と高い収益を達成する。

要約(オリジナル)

We study the variance of stochastic policy gradients (SPGs) with many action samples per state. We derive a many-actions optimality condition, which determines when many-actions SPG yields lower variance as compared to a single-action agent with proportionally extended trajectory. We propose Model-Based Many-Actions (MBMA), an approach leveraging dynamics models for many-actions sampling in the context of SPG. MBMA addresses issues associated with existing implementations of many-actions SPG and yields lower bias and comparable variance to SPG estimated from states in model-simulated rollouts. We find that MBMA bias and variance structure matches that predicted by theory. As a result, MBMA achieves improved sample efficiency and higher returns on a range of continuous action environments as compared to model-free, many-actions, and model-based on-policy SPG baselines.

arxiv情報

著者 Michal Nauman,Marek Cygan
発行日 2023-05-02 12:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク