Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization

要約

タイトル:サンプル効率の高いドメインランダム化を用いたSim-to-Real強化学習のためのサイクリックポリシーディスティレーション

要約:

– 当該研究は、ランダムな物理およびセンサーモデルパラメーターを持つさまざまなシミュレーションで制御ポリシーを学習し、ゼロショットの設定で実世界に転送可能にするドメインランダム化を使用して深い強化学習に取り組んでいる。
– しかし、ポリシーアップデートの不安定性により、ランダム化されたパラメーターの範囲が広い場合、効果的なポリシーを学習するためには大量のサンプルが必要です。
– この問題を緩和するため、当該研究者はサンプル効率の高い方法であるサイクリックポリシーディスティレーション(CPD)を提案しています。
– CPDは、ランダム化されたパラメーターの範囲をいくつかの小さなサブドメインに分割し、各々にローカルポリシーを割り当てます。その後、サブドメインにサイクリックに移行しながらローカルポリシーを学習します。
– CPDは、期待される性能向上に基づく知識転送を介して学習を加速します。最後に、学習されたすべてのローカルポリシーをグローバルポリシーに

要約(オリジナル)

Deep reinforcement learning with domain randomization learns a control policy in various simulations with randomized physical and sensor model parameters to become transferable to the real world in a zero-shot setting. However, a huge number of samples are often required to learn an effective policy when the range of randomized parameters is extensive due to the instability of policy updates. To alleviate this problem, we propose a sample-efficient method named cyclic policy distillation (CPD). CPD divides the range of randomized parameters into several small sub-domains and assigns a local policy to each one. Then local policies are learned while cyclically transitioning to sub-domains. CPD accelerates learning through knowledge transfer based on expected performance improvements. Finally, all of the learned local policies are distilled into a global policy for sim-to-real transfers. CPD’s effectiveness and sample efficiency are demonstrated through simulations with four tasks (Pendulum from OpenAIGym and Pusher, Swimmer, and HalfCheetah from Mujoco), and a real-robot, ball-dispersal task. We published code and videos from our experiments at https://github.com/yuki-kadokawa/cyclic-policy-distillation.

arxiv情報

著者 Yuki Kadokawa,Lingwei Zhu,Yoshihisa Tsurumine,Takamitsu Matsubara
発行日 2023-04-10 07:02:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.RO パーマリンク