Policy Gradient with Kernel Quadrature

要約

エピソードの報酬評価は、幅広い強化学習タスクにおいてボトルネックになります。
このペーパーの目的は、エピソードの大きなバッチの中から小さいながらも代表的なサブセットを選択し、そのサブセットに基づいてのみ、より効率的なポリシー勾配反復に対する報酬を実際に計算することです。
割引収益または報酬のガウス過程モデリングを構築して、エピソード空間上の正定カーネルを導出し、「エピソード」カーネル求積法を実行してサンプル エピソードの情報を圧縮し、削減されたエピソードをポリシー ネットワークに渡します。
グラデーションの更新。
この手順の理論的背景とその数値図を MuJoCo タスクで示します。

要約(オリジナル)

Reward evaluation of episodes becomes a bottleneck in a broad range of reinforcement learning tasks. Our aim in this paper is to select a small but representative subset of a large batch of episodes, only on which we actually compute rewards for more efficient policy gradient iterations. We build a Gaussian process modeling of discounted returns or rewards to derive a positive definite kernel on the space of episodes, run an “episodic’ kernel quadrature method to compress the information of sample episodes, and pass the reduced episodes to the policy network for gradient updates. We present the theoretical background of this procedure as well as its numerical illustrations in MuJoCo tasks.

arxiv情報

著者 Satoshi Hayakawa,Tetsuro Morimura
発行日 2023-12-05 11:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク