Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards

要約

本稿では、強化学習(RL)における遅延報酬という難題に取り組む。プロキシマル・ポリシー最適化(PPO)はポリシー勾配の代表的な手法として登場したが、遅延報酬の下では性能が低下する可能性がある。我々はPPOに2つの重要な機能強化を導入する。すなわち、オフライン政策(専門家の実証実験に基づいて訓練)とオンラインPPO政策を組み合わせたハイブリッド政策アーキテクチャと、時間窓時間論理(TWTL)を用いた報酬整形メカニズムである。このハイブリッド・アーキテクチャは、PPOの理論的保証を維持しつつ、訓練を通じてオフラインデータを活用する。信頼領域政策最適化(Trust Region Policy Optimization: TRPO)の単調改善フレームワークに基づき、本アプローチが、オフライン政策と過去の反復の両方に対して、$(2varsigmagammaalpha^2)/(1-gamma)^2$の境界付き性能差で改善を保証することを証明する。さらに、TWTLに基づく報酬整形が、元の問題の最適政策を保存することを証明する。TWTLは、時間的目標を、学習を導く即時フィードバック信号への正式な変換を可能にする。我々は、倒立振子と月着陸船環境での広範な実験を通して、我々のアプローチの有効性を実証し、標準的なPPOやオフラインのみのアプローチと比較して、学習速度と最終的な性能の両方の向上を示す。

要約(オリジナル)

In this paper, we tackle the challenging problem of delayed rewards in reinforcement learning (RL). While Proximal Policy Optimization (PPO) has emerged as a leading Policy Gradient method, its performance can degrade under delayed rewards. We introduce two key enhancements to PPO: a hybrid policy architecture that combines an offline policy (trained on expert demonstrations) with an online PPO policy, and a reward shaping mechanism using Time Window Temporal Logic (TWTL). The hybrid architecture leverages offline data throughout training while maintaining PPO’s theoretical guarantees. Building on the monotonic improvement framework of Trust Region Policy Optimization (TRPO), we prove that our approach ensures improvement over both the offline policy and previous iterations, with a bounded performance gap of $(2\varsigma\gamma\alpha^2)/(1-\gamma)^2$, where $\alpha$ is the mixing parameter, $\gamma$ is the discount factor, and $\varsigma$ bounds the expected advantage. Additionally, we prove that our TWTL-based reward shaping preserves the optimal policy of the original problem. TWTL enables formal translation of temporal objectives into immediate feedback signals that guide learning. We demonstrate the effectiveness of our approach through extensive experiments on an inverted pendulum and a lunar lander environments, showing improvements in both learning speed and final performance compared to standard PPO and offline-only approaches.

arxiv情報

著者 Ahmad Ahmad,Mehdi Kermanshah,Kevin Leahy,Zachary Serlin,Ho Chit Siu,Makai Mann,Cristian-Ioan Vasile,Roberto Tron,Calin Belta
発行日 2024-12-03 18:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク