Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning

要約

効率的な探索は強化学習において依然として困難な問題であり、特に環境からの外部報酬がまばらであるか、まったく無視されるタスクの場合には顕著です。
内発的動機づけに基づく大幅な進歩は、単純な環境では有望な結果を示しますが、マルチモーダルで確率的なダイナミクスのある環境では行き詰まることがよくあります。
この研究では、マルチモダリティと確率性をモデル化するために、条件付き変分推論に基づく変分動的モデルを提案します。
私たちは、現在の状態、行動、潜在変数の条件下で次の状態の予測を生成することにより、環境の状態と行動の遷移を条件付き生成プロセスとみなします。これにより、ダイナミクスのより良い理解が得られ、探索のパフォーマンスが向上します。
環境遷移の負の対数尤度の上限を導出し、その上限を探索の内発的報酬として使用します。これにより、エージェントは外部報酬を観察することなく、自己教師あり探索によってスキルを学習できるようになります。
いくつかの画像ベースのシミュレーションタスクと実際のロボット操作タスクで提案された方法を評価します。
私たちの方法は、いくつかの最先端の環境モデルベースの探索アプローチよりも優れています。

要約(オリジナル)

Efficient exploration remains a challenging problem in reinforcement learning, especially for tasks where extrinsic rewards from environments are sparse or even totally disregarded. Significant advances based on intrinsic motivation show promising results in simple environments but often get stuck in environments with multimodal and stochastic dynamics. In this work, we propose a variational dynamic model based on the conditional variational inference to model the multimodality and stochasticity. We consider the environmental state-action transition as a conditional generative process by generating the next-state prediction under the condition of the current state, action, and latent variable, which provides a better understanding of the dynamics and leads a better performance in exploration. We derive an upper bound of the negative log-likelihood of the environmental transition and use such an upper bound as the intrinsic reward for exploration, which allows the agent to learn skills by self-supervised exploration without observing extrinsic rewards. We evaluate the proposed method on several image-based simulation tasks and a real robotic manipulating task. Our method outperforms several state-of-the-art environment model-based exploration approaches.

arxiv情報

著者 Chenjia Bai,Peng Liu,Kaiyu Liu,Lingxiao Wang,Yingnan Zhao,Lei Han
発行日 2024-04-02 02:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク