Continual Domain Randomization

要約

ドメインランダム化 (DR) は、ロボット工学における強化学習 (RL) ポリシーの sim2real 転送に一般的に使用されます。
ほとんどの DR アプローチでは、トレーニングの開始時から調整可能なパラメーターの固定セットを備えたシミュレーターが必要です。そこからパラメーターが同時にランダム化され、現実世界で使用するための堅牢なモデルがトレーニングされます。
ただし、多くのパラメータのランダム化を組み合わせるとタスクの難易度が高まり、最適とはいえないポリシーが生成される可能性があります。
この問題に対処し、より柔軟なトレーニング プロセスを提供するために、RL の継続的ドメイン ランダム化 (CDR) を提案します。これは、ドメインのランダム化と継続的学習を組み合わせて、一度にランダム化パラメーターのサブセットに対するシミュレーションでの逐次トレーニングを可能にします。
タスクの解決が容易な非ランダム化シミュレーションでトレーニングされたモデルから開始して、モデルは一連のランダム化でトレーニングされ、以前のランダム化の効果を記憶するために継続的な学習が採用されます。
私たちのロボットによる到達および把握タスクの実験では、この方法でトレーニングされたモデルがシミュレーションで効果的に学習し、継続的な学習を行わずに組み合わせランダム化または逐次ランダム化を使用するベースラインと一致またはそれを上回るパフォーマンスを示しながら、実際のロボット上で堅牢に実行できることが示されています。
私たちのコードとビデオは https://continual-dr.github.io/ で入手できます。

要約(オリジナル)

Domain Randomization (DR) is commonly used for sim2real transfer of reinforcement learning (RL) policies in robotics. Most DR approaches require a simulator with a fixed set of tunable parameters from the start of the training, from which the parameters are randomized simultaneously to train a robust model for use in the real world. However, the combined randomization of many parameters increases the task difficulty and might result in sub-optimal policies. To address this problem and to provide a more flexible training process, we propose Continual Domain Randomization (CDR) for RL that combines domain randomization with continual learning to enable sequential training in simulation on a subset of randomization parameters at a time. Starting from a model trained in a non-randomized simulation where the task is easier to solve, the model is trained on a sequence of randomizations, and continual learning is employed to remember the effects of previous randomizations. Our robotic reaching and grasping tasks experiments show that the model trained in this fashion learns effectively in simulation and performs robustly on the real robot while matching or outperforming baselines that employ combined randomization or sequential randomization without continual learning. Our code and videos are available at https://continual-dr.github.io/.

arxiv情報

著者 Josip Josifovski,Sayantan Auddy,Mohammadhossein Malmir,Justus Piater,Alois Knoll,Nicolás Navarro-Guerrero
発行日 2024-08-27 16:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク