要約
まばらな報酬を伴う強化学習の文脈において、深い決定論的政策勾配(DDPG)を検討します。
探索を強化するために、検索手順\ emph {$ {\ epsilon} {t} $ – greedy}を紹介します。
$ \ epsilon t $ greedyを使用した検索には、軽度のMDP仮定の下で多項式サンプルの複雑さがあることが証明されています。
報酬を与えられた遷移によって提供される情報をより効率的に使用するために、新しいデュアルエクスペリエンスリプレイバッファフレームワーク、\ emph {gdrb}を開発し、\ empond {最も長いn-stepリターン}を実装します。
結果のアルゴリズム、\ emphing {etgl-ddpg}は、3つの手法すべてを統合します:\ bm {$ \ epsilon t $} – 貪欲、\ textbf {g} drb、および\ textbf {l} onegest $ n $ -step、
DDPG。
標準ベンチマークでETGL-DDPGを評価し、すべてのテストされたスパースリワード連続環境でDDPGやその他の最先端の方法よりも優れていることを実証します。
アブレーション研究は、各戦略がこの設定でのDDPGのパフォーマンスを個別に強化する方法をさらに強調しています。
要約(オリジナル)
We consider deep deterministic policy gradient (DDPG) in the context of reinforcement learning with sparse rewards. To enhance exploration, we introduce a search procedure, \emph{${\epsilon}{t}$-greedy}, which generates exploratory options for exploring less-visited states. We prove that search using $\epsilon t$-greedy has polynomial sample complexity under mild MDP assumptions. To more efficiently use the information provided by rewarded transitions, we develop a new dual experience replay buffer framework, \emph{GDRB}, and implement \emph{longest n-step returns}. The resulting algorithm, \emph{ETGL-DDPG}, integrates all three techniques: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, and \textbf{L}ongest $n$-step, into DDPG. We evaluate ETGL-DDPG on standard benchmarks and demonstrate that it outperforms DDPG, as well as other state-of-the-art methods, across all tested sparse-reward continuous environments. Ablation studies further highlight how each strategy individually enhances the performance of DDPG in this setting.
arxiv情報
著者 | Ehsan Futuhi,Shayan Karimi,Chao Gao,Martin Müller |
発行日 | 2025-02-17 23:39:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google