Trajectory-Oriented Policy Optimization with Sparse Rewards

要約

深層強化学習 (DRL) を習得することは、報酬が少ないタスクでは困難であることがわかります。
これらの限定された報酬は、タスクが部分的にまたは完全に達成されたかどうかを示すだけであり、エージェントが意味のあるフィードバックを得る前にさまざまな探索アクションが必要になります。
その結果、既存の DRL 探索アルゴリズムの大部分は、妥当な期間内に実用的なポリシーを取得するのに苦労しています。
この課題に対処するために、報酬が少ない環境でより迅速かつ効率的なオンライン RL を実現するために、オフライン デモンストレーションの軌跡を活用するアプローチを導入します。
私たちの極めて重要な洞察には、オフラインデモの軌跡を単なる模倣ではなくガイダンスとして扱うことが含まれており、これにより、私たちの方法が国家活動訪問の分布がオフラインデモの分布とわずかに一致する政策を学習できるようになります。
特に、最大平均不一致 (MMD) に依存する新しい軌道距離と、距離制約のある最適化問題としてのキャスト ポリシーの最適化を導入します。
次に、この最適化問題をポリシー勾配アルゴリズムに合理化し、オフライン デモンストレーションからの洞察によって形作られた報酬を統合できることを示します。
提案されたアルゴリズムは、まばらで誤解を招く報酬を伴う広範な離散的および連続的制御タスクにわたって評価を受けます。
実験結果は、多様な探索と最適なポリシーの取得に関して、ベースライン手法よりも提案したアルゴリズムが大幅に優れていることを示しています。

要約(オリジナル)

Mastering deep reinforcement learning (DRL) proves challenging in tasks featuring scant rewards. These limited rewards merely signify whether the task is partially or entirely accomplished, necessitating various exploration actions before the agent garners meaningful feedback. Consequently, the majority of existing DRL exploration algorithms struggle to acquire practical policies within a reasonable timeframe. To address this challenge, we introduce an approach leveraging offline demonstration trajectories for swifter and more efficient online RL in environments with sparse rewards. Our pivotal insight involves treating offline demonstration trajectories as guidance, rather than mere imitation, allowing our method to learn a policy whose distribution of state-action visitation marginally matches that of offline demonstrations. We specifically introduce a novel trajectory distance relying on maximum mean discrepancy (MMD) and cast policy optimization as a distance-constrained optimization problem. We then illustrate that this optimization problem can be streamlined into a policy-gradient algorithm, integrating rewards shaped by insights from offline demonstrations. The proposed algorithm undergoes evaluation across extensive discrete and continuous control tasks with sparse and misleading rewards. The experimental findings demonstrate the significant superiority of our proposed algorithm over baseline methods concerning diverse exploration and the acquisition of an optimal policy.

arxiv情報

著者 Guojian Wang,Faguo Wu,Xiao Zhang
発行日 2024-04-10 14:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク