Trajectory-Oriented Policy Optimization with Sparse Rewards


深層強化学習 (DRL) は、報酬がまばらなタスクでは依然として困難です。
したがって、既存の DRL アルゴリズムのほとんどは、妥当な時間枠内で実行可能なポリシーを学習できません。
この問題を克服するために、私たちは、まばらな報酬設定でより高速かつ効率的なオンライン RL を実現するために、オフライン デモンストレーションの軌跡を利用するアプローチを開発しました。
具体的には、最大平均不一致 (MMD) に基づく新しい軌道距離を導入し、距離制約のある最適化問題としてポリシーの最適化を定式化します。
次に、この距離制約のある最適化問題を、オフライン デモンストレーションから学習した成形報酬を使用したポリシー勾配アルゴリズムに還元できることを示します。


Deep reinforcement learning (DRL) remains challenging in tasks with sparse rewards. These sparse rewards often only indicate whether the task is partially or fully completed, meaning that many exploration actions must be performed before the agent obtains useful feedback. Hence, most existing DRL algorithms fail to learn feasible policies within a reasonable time frame. To overcome this problem, we develop an approach that exploits offline demonstration trajectories for faster and more efficient online RL in sparse reward settings. Our key insight is that by regarding offline demonstration trajectories as guidance, instead of imitating them, our method learns a policy whose state-action visitation marginal distribution matches that of offline demonstrations. Specifically, we introduce a novel trajectory distance based on maximum mean discrepancy (MMD) and formulate policy optimization as a distance-constrained optimization problem. Then, we show that this distance-constrained optimization problem can be reduced into a policy-gradient algorithm with shaped rewards learned from offline demonstrations. The proposed algorithm is evaluated on extensive discrete and continuous control tasks with sparse and deceptive rewards. The experimental results indicate that our proposed algorithm is significantly better than the baseline methods regarding diverse exploration and learning the optimal policy.


著者 Guojian Wang,Faguo Wu,Xiao Zhang
発行日 2024-01-04 12:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク