$f$-Policy Gradients: A General Framework for Goal Conditioned RL using $f$-Divergences

要約

目標条件付き強化学習 (RL) 問題では、多くの場合、エージェントが目標を達成した場合にのみ報酬信号を受信する、まばらな報酬にアクセスできるため、ポリシーの最適化が困難な問題になります。
いくつかの研究では、学習された密な報酬関数を使用してこの疎な報酬を強化していますが、報酬の調整がずれている場合、これは次善のポリシーにつながる可能性があります。
さらに、最近の研究では、特定の問題に対する効果的な報酬形成は、基礎となる学習アルゴリズムに依存する可能性があることが実証されています。
この論文では、$f$-Policy Gradients ($f$-PG) と呼ばれる探索を促進する新しい方法を紹介します。
$f$-PG は、エージェントの状態訪問分布と目標の間の f 乖離を最小限に抑え、これが最適なポリシーにつながる可能性があることを示します。
この目的を最適化するために、さまざまな f ダイバージェンスの勾配を導出します。
私たちの学習パラダイムは、まばらな報酬設定での探索のための密な学習信号を提供します。
さらに、目標の特別なケースとして $state$-MaxEnt RL (または $s$-MaxEnt RL) と呼ばれる、エントロピー正則化ポリシー最適化目標を導入します。
我々は、L2 のようないくつかのメトリクスベースのシェーピング報酬が $s$-MaxEnt RL で使用できることを示し、効率的な探索によってそのようなメトリクスベースのシェイピング報酬を研究するための共通基盤を提供します。
$f$-PG は、困難なグリッドワールドや Point Maze および FetchReach 環境において、標準的なポリシー勾配法と比較してパフォーマンスが優れていることがわかりました。
詳細については、当社の Web サイト https://agarwalsiddhant10.github.io/projects/fpg.html をご覧ください。

要約(オリジナル)

Goal-Conditioned Reinforcement Learning (RL) problems often have access to sparse rewards where the agent receives a reward signal only when it has achieved the goal, making policy optimization a difficult problem. Several works augment this sparse reward with a learned dense reward function, but this can lead to sub-optimal policies if the reward is misaligned. Moreover, recent works have demonstrated that effective shaping rewards for a particular problem can depend on the underlying learning algorithm. This paper introduces a novel way to encourage exploration called $f$-Policy Gradients, or $f$-PG. $f$-PG minimizes the f-divergence between the agent’s state visitation distribution and the goal, which we show can lead to an optimal policy. We derive gradients for various f-divergences to optimize this objective. Our learning paradigm provides dense learning signals for exploration in sparse reward settings. We further introduce an entropy-regularized policy optimization objective, that we call $state$-MaxEnt RL (or $s$-MaxEnt RL) as a special case of our objective. We show that several metric-based shaping rewards like L2 can be used with $s$-MaxEnt RL, providing a common ground to study such metric-based shaping rewards with efficient exploration. We find that $f$-PG has better performance compared to standard policy gradient methods on a challenging gridworld as well as the Point Maze and FetchReach environments. More information on our website https://agarwalsiddhant10.github.io/projects/fpg.html.

arxiv情報

著者 Siddhant Agarwal,Ishan Durugkar,Peter Stone,Amy Zhang
発行日 2023-10-10 17:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク