Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts

要約

強化学習 (RL) は、優れたパフォーマンスのポリシーを取得するための強力なアプローチです。
ただし、一般的に使用されるガウス ポリシーのパラメーター化のため、RL では多様なスキルを学習するのは困難です。
我々は、専門家の混合を使用して多様なスキルを学習するための RL 手法である \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL) を提案します。この手法では、各専門家がスキルを状況に応じたモーション プリミティブとして形式化します。
Di-Skill は、同様のコンテキストで多様なスキルの学習を奨励する最大エントロピー目標に合わせて、各専門家とその関連コンテキスト分布を最適化します。
エキスパートごとのコンテキスト配信により、自動カリキュラム学習が可能になり、各エキスパートがコンテキスト空間の最もパフォーマンスの高いサブ領域に集中できるようになります。
環境の未知のコンテキスト確率空間に関する事前知識がなくても、ハードな不連続性とマルチモダリティを克服するために、エネルギーベースのモデルを活用して専門家ごとのコンテキスト分布を表し、標準的なポリシー勾配目標を使用して効率的にトレーニングできる方法を実証します。
困難なロボット シミュレーション タスクで、Di-SkillL が多様でパフォーマンスの高いスキルを学習できることを示します。

要約(オリジナル)

Reinforcement learning (RL) is a powerful approach for acquiring a good-performing policy. However, learning diverse skills is challenging in RL due to the commonly used Gaussian policy parameterization. We propose \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL), an RL method for learning diverse skills using Mixture of Experts, where each expert formalizes a skill as a contextual motion primitive. Di-SkilL optimizes each expert and its associate context distribution to a maximum entropy objective that incentivizes learning diverse skills in similar contexts. The per-expert context distribution enables automatic curricula learning, allowing each expert to focus on its best-performing sub-region of the context space. To overcome hard discontinuities and multi-modalities without any prior knowledge of the environment’s unknown context probability space, we leverage energy-based models to represent the per-expert context distributions and demonstrate how we can efficiently train them using the standard policy gradient objective. We show on challenging robot simulation tasks that Di-SkilL can learn diverse and performant skills.

arxiv情報

著者 Onur Celik,Aleksandar Taranovic,Gerhard Neumann
発行日 2024-03-11 17:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク