要約
我々は、スパース報酬を用いた強化学習のコンテキストで深い決定論的ポリシー勾配 (DDPG) を検討します。
探索を強化するために、あまり訪問されていない州を探索するための探索オプションを生成する探索プロシージャ \emph{${\epsilon}{t}$-greedy} を導入します。
$\epsilon t$-greedy を使用した検索は、穏やかな MDP 仮定の下で多項式サンプルの複雑さを有することを証明します。
リワードトランジションによって提供される情報をより効率的に使用するために、新しいデュアルエクスペリエンスリプレイバッファフレームワーク \emph{GDRB} を開発し、\emph{最長 n ステップリターン} を実装します。
結果として得られるアルゴリズム \emph{ETGL-DDPG} は、\bm{$\epsilon t$}-greedy、\textbf{G}DRB、および \textbf{L}ongest $n$-step の 3 つの手法をすべて統合しています。
DDPG。
私たちは標準ベンチマークで ETGL-DDPG を評価し、テストされたすべてのスパース報酬連続環境において、DDPG やその他の最先端の手法よりも優れていることを実証しました。
アブレーション研究では、各戦略がこの設定で DDPG のパフォーマンスを個別にどのように向上させるかをさらに強調しています。
要約(オリジナル)
We consider deep deterministic policy gradient (DDPG) in the context of reinforcement learning with sparse rewards. To enhance exploration, we introduce a search procedure, \emph{${\epsilon}{t}$-greedy}, which generates exploratory options for exploring less-visited states. We prove that search using $\epsilon t$-greedy has polynomial sample complexity under mild MDP assumptions. To more efficiently use the information provided by rewarded transitions, we develop a new dual experience replay buffer framework, \emph{GDRB}, and implement \emph{longest n-step returns}. The resulting algorithm, \emph{ETGL-DDPG}, integrates all three techniques: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, and \textbf{L}ongest $n$-step, into DDPG. We evaluate ETGL-DDPG on standard benchmarks and demonstrate that it outperforms DDPG, as well as other state-of-the-art methods, across all tested sparse-reward continuous environments. Ablation studies further highlight how each strategy individually enhances the performance of DDPG in this setting.
arxiv情報
著者 | Ehsan Futuhi,Shayan Karimi,Chao Gao,Martin Müller |
発行日 | 2024-10-07 17:31:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google