Trajectory-Oriented Policy Optimization with Sparse Rewards

要約

深層強化学習 (DRL) は、報酬がまばらなタスクでは依然として困難です。
これらのまばらな報酬は、タスクが部分的に完了したか完全に完了したかのみを示すことが多いため、エージェントが有用なフィードバックを取得する前に多くの探索アクションを実行する必要があることを意味します。
したがって、既存の DRL アルゴリズムのほとんどは、妥当な時間枠内で実行可能なポリシーを学習できません。
この問題を克服するために、私たちは、まばらな報酬設定でより高速かつ効率的なオンライン RL を実現するために、オフライン デモンストレーションの軌跡を利用するアプローチを開発しました。
私たちの重要な洞察は、オフラインデモの軌跡を模倣するのではなく、ガイダンスとしてみなすことによって、私たちの方法は、国家活動の訪問の限界分布がオフラインデモのそれと一致する政策を学習するということです。
具体的には、最大平均不一致 (MMD) に基づく新しい軌道距離を導入し、距離制約のある最適化問題としてポリシーの最適化を定式化します。
次に、この距離制約のある最適化問題を、オフライン デモンストレーションから学習した成形報酬を使用したポリシー勾配アルゴリズムに還元できることを示します。
提案されたアルゴリズムは、まばらで欺瞞的な報酬を伴う広範な離散的および連続的な制御タスクで評価されます。
実験結果は、多様な探索と最適なポリシーの学習に関して、提案したアルゴリズムがベースライン手法よりも大幅に優れていることを示しています。

要約(オリジナル)

Deep reinforcement learning (DRL) remains challenging in tasks with sparse rewards. These sparse rewards often only indicate whether the task is partially or fully completed, meaning that many exploration actions must be performed before the agent obtains useful feedback. Hence, most existing DRL algorithms fail to learn feasible policies within a reasonable time frame. To overcome this problem, we develop an approach that exploits offline demonstration trajectories for faster and more efficient online RL in sparse reward settings. Our key insight is that by regarding offline demonstration trajectories as guidance, instead of imitating them, our method learns a policy whose state-action visitation marginal distribution matches that of offline demonstrations. Specifically, we introduce a novel trajectory distance based on maximum mean discrepancy (MMD) and formulate policy optimization as a distance-constrained optimization problem. Then, we show that this distance-constrained optimization problem can be reduced into a policy-gradient algorithm with shaped rewards learned from offline demonstrations. The proposed algorithm is evaluated on extensive discrete and continuous control tasks with sparse and deceptive rewards. The experimental results indicate that our proposed algorithm is significantly better than the baseline methods regarding diverse exploration and learning the optimal policy.

arxiv情報

著者 Guojian Wang,Faguo Wu,Xiao Zhang
発行日 2024-01-04 12:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク