Bayesian Optimization for Sample-Efficient Policy Improvement in Robotic Manipulation

要約

サンプルの操作スキルを効率的に学習することは、ロボット工学において大きな課題となっています。
最近のアプローチでは、対処できるタスクの種類や組み込むことができるセンシング手法において目覚ましい進歩が見られますが、依然として大量のトレーニング データが必要です。
特に、現実世界でのロボットの動作の学習に関しては、デモンストレーションと現実世界のロボットの相互作用の両方に関連するコストが高いため、これは大きな問題を引き起こします。
この課題に対処するために、模倣学習と独自の経験収集を組み合わせたハイブリッド アプローチである BOpt-GMM を導入します。
まず、いくつかのデモンストレーションから、ガウス混合モデルにエンコードされた動的システムとしてのスキル モデルを学習します。
次に、まばらな報酬設定での少数の自律的なスキルの実行に基づいて構築されたベイジアン最適化を使用して、このモデルを改善します。
シミュレーションと現実世界の実験の両方で、複数の複雑な操作スキルに対するアプローチのサンプル効率を実証します。
さらに、コードと事前トレーニングされたモデルは http://bopt-gmm で公開されています。
cs.uni-freiburg.de。

要約(オリジナル)

Sample efficient learning of manipulation skills poses a major challenge in robotics. While recent approaches demonstrate impressive advances in the type of task that can be addressed and the sensing modalities that can be incorporated, they still require large amounts of training data. Especially with regard to learning actions on robots in the real world, this poses a major problem due to the high costs associated with both demonstrations and real-world robot interactions. To address this challenge, we introduce BOpt-GMM, a hybrid approach that combines imitation learning with own experience collection. We first learn a skill model as a dynamical system encoded in a Gaussian Mixture Model from a few demonstrations. We then improve this model with Bayesian optimization building on a small number of autonomous skill executions in a sparse reward setting. We demonstrate the sample efficiency of our approach on multiple complex manipulation skills in both simulations and real-world experiments. Furthermore, we make the code and pre-trained models publicly available at http://bopt-gmm. cs.uni-freiburg.de.

arxiv情報

著者 Adrian Röfer,Iman Nematollahi,Tim Welschehold,Wolfram Burgard,Abhinav Valada
発行日 2024-03-21 11:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク