要約
ドメイン ランダム化 (DR) は、ランダム化されたダイナミクスを使用してポリシーをトレーニングすることを必要とし、シミュレーションと現実世界の間のギャップを縮小するためのシンプルかつ効果的なアルゴリズムであることが証明されています。
ただし、DR では多くの場合、ランダム化パラメーターを慎重に調整する必要があります。
ベイジアン ドメイン ランダム化 (ベイジアン DR) やアクティブ ドメイン ランダム化 (アダプティブ DR) などの手法は、実世界の経験を使用してパラメータ範囲の選択を自動化することで、この問題に対処します。
これらのアルゴリズムは効果的ではありますが、反復のたびに新しいポリシーが最初からトレーニングされるため、多くの場合、長い計算時間が必要になります。
この研究では、戦略的微調整による適応ベイジアン ドメイン ランダム化 (BayRnTune) を提案します。これは、BayRn の精神を継承していますが、以前に学習したポリシーから微調整することで学習プロセスを大幅に加速することを目的としています。
この考えは、微調整中に事前ポリシーとしてどの以前のポリシーを使用する必要があるかという重要な質問につながります。
私たちは 4 つの異なる微調整戦略を調査し、単純なベンチマーク タスクからより複雑な脚式ロボット環境に至るまで、5 つのシミュレート環境でベースライン アルゴリズムと比較しました。
私たちの分析は、私たちの方法がバニラドメインランダム化やベイジアンDRと比較して、同じ量のタイムステップでより良い報酬を生み出すことを示しています。
要約(オリジナル)
Domain randomization (DR), which entails training a policy with randomized dynamics, has proven to be a simple yet effective algorithm for reducing the gap between simulation and the real world. However, DR often requires careful tuning of randomization parameters. Methods like Bayesian Domain Randomization (Bayesian DR) and Active Domain Randomization (Adaptive DR) address this issue by automating parameter range selection using real-world experience. While effective, these algorithms often require long computation time, as a new policy is trained from scratch every iteration. In this work, we propose Adaptive Bayesian Domain Randomization via Strategic Fine-tuning (BayRnTune), which inherits the spirit of BayRn but aims to significantly accelerate the learning processes by fine-tuning from previously learned policy. This idea leads to a critical question: which previous policy should we use as a prior during fine-tuning? We investigated four different fine-tuning strategies and compared them against baseline algorithms in five simulated environments, ranging from simple benchmark tasks to more complex legged robot environments. Our analysis demonstrates that our method yields better rewards in the same amount of timesteps compared to vanilla domain randomization or Bayesian DR.
arxiv情報
著者 | Tianle Huang,Nitish Sontakke,K. Niranjan Kumar,Irfan Essa,Stefanos Nikolaidis,Dennis W. Hong,Sehoon Ha |
発行日 | 2023-10-16 17:32:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google