Domain Randomization via Entropy Maximization

要約

シミュレーションにおいてダイナミクスパラメータを変化させることは、強化学習(RL)におけるリアリティギャップを克服するための一般的なドメインランダム化(DR)アプローチである。しかしながら、DRはダイナミクスパラメータのサンプリング分布の選択に大きく依存する。なぜなら、高い変動性はエージェントの行動を規則的にするために重要であるが、過度にランダム化すると過度に保守的な政策になることが知られているからである。本論文では、実世界のデータを必要とすることなく、シミュレーションのトレーニング中に自動的にダイナミクス分布を形成する、シミュレーションから実世界への移行に対処するための新しいアプローチを提案する。DORAEMONは、汎化能力を保持しつつ、訓練分布のエントロピーを直接的に最大化する制約付き最適化問題である。これを達成するために、DORAEMONは、現在のポリシーの成功確率が十分に高い限り、サンプリングされたダイナミクスパラメータの多様性を徐々に増加させる。我々は、DORAEMONが高度に適応的で汎化可能なポリシーを得ること、すなわち、DR文献の代表的なベースラインとは対照的に、ダイナミクスパラメータの最も広い範囲にわたって手元のタスクを解決することで、一貫した利点を持つことを実証的に検証する。また、DORAEMONのSim2Realへの適用性を、未知の実世界パラメータ下でのロボット操作セットアップにおけるゼロショット移行の成功を通じて実証する。

要約(オリジナル)

Varying dynamics parameters in simulation is a popular Domain Randomization (DR) approach for overcoming the reality gap in Reinforcement Learning (RL). Nevertheless, DR heavily hinges on the choice of the sampling distribution of the dynamics parameters, since high variability is crucial to regularize the agent’s behavior but notoriously leads to overly conservative policies when randomizing excessively. In this paper, we propose a novel approach to address sim-to-real transfer, which automatically shapes dynamics distributions during training in simulation without requiring real-world data. We introduce DOmain RAndomization via Entropy MaximizatiON (DORAEMON), a constrained optimization problem that directly maximizes the entropy of the training distribution while retaining generalization capabilities. In achieving this, DORAEMON gradually increases the diversity of sampled dynamics parameters as long as the probability of success of the current policy is sufficiently high. We empirically validate the consistent benefits of DORAEMON in obtaining highly adaptive and generalizable policies, i.e. solving the task at hand across the widest range of dynamics parameters, as opposed to representative baselines from the DR literature. Notably, we also demonstrate the Sim2Real applicability of DORAEMON through its successful zero-shot transfer in a robotic manipulation setup under unknown real-world parameters.

arxiv情報

著者 Gabriele Tiboni,Pascal Klink,Jan Peters,Tatiana Tommasi,Carlo D’Eramo,Georgia Chalvatzaki
発行日 2023-11-03 12:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク