要約
モデルベース強化学習 (MBRL) は、サンプル効率の高い方法で複雑な動作を学習できる機能、つまり、予測された報酬を伴う想像上の軌道を生成することで行動を計画する機能で多くの注目を集めています。
その成功にもかかわらず、驚くべきことに、特に予測が困難な (または曖昧な) まばらな報酬の場合、報酬予測が MBRL のボトルネックになることが多いことがわかりました。
人間は大まかな報酬の見積もりから学習できるという直観に基づいて、シンプルでありながら効果的な報酬平滑化アプローチ、DreamSmooth を提案します。これは、指定されたタイムステップでの正確な報酬ではなく、時間的に平滑化された報酬を予測することを学習します。
DreamSmooth は、Deepmind Control Suite や Atari ベンチマークなどの一般的なベンチマークでのパフォーマンスを損なうことなく、サンプル効率と最終パフォーマンスの両方において、長期のスパース報酬タスクで最先端のパフォーマンスを達成することを経験的に示しています。
要約(オリジナル)
Model-based reinforcement learning (MBRL) has gained much attention for its ability to learn complex behaviors in a sample-efficient way: planning actions by generating imaginary trajectories with predicted rewards. Despite its success, we found that surprisingly, reward prediction is often a bottleneck of MBRL, especially for sparse rewards that are challenging (or even ambiguous) to predict. Motivated by the intuition that humans can learn from rough reward estimates, we propose a simple yet effective reward smoothing approach, DreamSmooth, which learns to predict a temporally-smoothed reward, instead of the exact reward at the given timestep. We empirically show that DreamSmooth achieves state-of-the-art performance on long-horizon sparse-reward tasks both in sample efficiency and final performance without losing performance on common benchmarks, such as Deepmind Control Suite and Atari benchmarks.
arxiv情報
著者 | Vint Lee,Pieter Abbeel,Youngwoon Lee |
発行日 | 2023-11-02 17:57:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google