Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling

要約

環境との相互作用を通じて複雑なロボットの動作を学習するには、原則に基づいた探求が必要です。
効果的な戦略では、報酬を最大化する状態アクション空間の領域の探索を優先する必要があり、楽観的な探索がこの考えに沿った有望な方向性として浮上し、サンプル効率の高い強化学習を可能にします。
しかし、既存の方法は重要な側面を見落としています。それは、報酬と状態を結びつける信念によって楽観主義が知らされる必要性です。
これに対処するために、トンプソン サンプリングに基づいた楽観的な探索に対する実用的で理論に基づいたアプローチを提案します。
私たちのモデル構造は、遷移と報酬に関する共同不確実性についての推論を可能にする最初のモデルです。
私たちは、一連の MuJoCo および VMAS 連続制御タスクにこの方法を適用します。
私たちの実験は、報酬がまばらで、行動ペナルティがあり、探索が困難な領域がある環境では、楽観的な探索が学習を大幅に加速することを示しています。
さらに、楽観主義が有益な場合についての洞察を提供し、探索を導く上でのモデルの不確実性の重要な役割を強調します。

要約(オリジナル)

Learning complex robot behavior through interactions with the environment necessitates principled exploration. Effective strategies should prioritize exploring regions of the state-action space that maximize rewards, with optimistic exploration emerging as a promising direction aligned with this idea and enabling sample-efficient reinforcement learning. However, existing methods overlook a crucial aspect: the need for optimism to be informed by a belief connecting the reward and state. To address this, we propose a practical, theoretically grounded approach to optimistic exploration based on Thompson sampling. Our model structure is the first that allows for reasoning about joint uncertainty over transitions and rewards. We apply our method on a set of MuJoCo and VMAS continuous control tasks. Our experiments demonstrate that optimistic exploration significantly accelerates learning in environments with sparse rewards, action penalties, and difficult-to-explore regions. Furthermore, we provide insights into when optimism is beneficial and emphasize the critical role of model uncertainty in guiding exploration.

arxiv情報

著者 Jasmine Bayrooti,Carl Henrik Ek,Amanda Prorok
発行日 2024-10-07 12:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク