$f$-Policy Gradients: A General Framework for Goal Conditioned RL using $f$-Divergences


目標条件付き強化学習 (RL) 問題では、多くの場合、エージェントが目標を達成した場合にのみ報酬信号を受信する、まばらな報酬にアクセスできるため、ポリシーの最適化が困難な問題になります。
この論文では、$f$-Policy Gradients ($f$-PG) と呼ばれる探索を促進する新しい方法を紹介します。
$f$-PG は、エージェントの状態訪問分布と目標の間の f 乖離を最小限に抑え、これが最適なポリシーにつながる可能性があることを示します。
この目的を最適化するために、さまざまな f ダイバージェンスの勾配を導出します。
さらに、目標の特別なケースとして $state$-MaxEnt RL (または $s$-MaxEnt RL) と呼ばれる、エントロピー正則化ポリシー最適化目標を導入します。
我々は、L2 のようないくつかのメトリクスベースのシェーピング報酬が $s$-MaxEnt RL で使用できることを示し、効率的な探索によってそのようなメトリクスベースのシェイピング報酬を研究するための共通基盤を提供します。
$f$-PG は、困難なグリッドワールドや Point Maze および FetchReach 環境において、標準的なポリシー勾配法と比較してパフォーマンスが優れていることがわかりました。
詳細については、当社の Web サイト https://agarwalsiddhant10.github.io/projects/fpg.html をご覧ください。


Goal-Conditioned Reinforcement Learning (RL) problems often have access to sparse rewards where the agent receives a reward signal only when it has achieved the goal, making policy optimization a difficult problem. Several works augment this sparse reward with a learned dense reward function, but this can lead to sub-optimal policies if the reward is misaligned. Moreover, recent works have demonstrated that effective shaping rewards for a particular problem can depend on the underlying learning algorithm. This paper introduces a novel way to encourage exploration called $f$-Policy Gradients, or $f$-PG. $f$-PG minimizes the f-divergence between the agent’s state visitation distribution and the goal, which we show can lead to an optimal policy. We derive gradients for various f-divergences to optimize this objective. Our learning paradigm provides dense learning signals for exploration in sparse reward settings. We further introduce an entropy-regularized policy optimization objective, that we call $state$-MaxEnt RL (or $s$-MaxEnt RL) as a special case of our objective. We show that several metric-based shaping rewards like L2 can be used with $s$-MaxEnt RL, providing a common ground to study such metric-based shaping rewards with efficient exploration. We find that $f$-PG has better performance compared to standard policy gradient methods on a challenging gridworld as well as the Point Maze and FetchReach environments. More information on our website https://agarwalsiddhant10.github.io/projects/fpg.html.


著者 Siddhant Agarwal,Ishan Durugkar,Peter Stone,Amy Zhang
発行日 2023-10-10 17:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク