Simulation-Aided Policy Tuning for Black-Box Robot Learning

要約

ロボットはどのようにして少ないデータで新しいタスクや状況を学習し、適応できるのでしょうか?
体系的な探索とシミュレーションは、ロボットを効率的に学習するための重要なツールです。
データ効率の高いポリシーの改善に焦点を当てた、新しいブラックボックス ポリシー検索アルゴリズムを紹介します。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスをスピードアップします。
アルゴリズムの中核となる確率モデルは、ロボット上で実験を実行するだけでなく、シミュレーターからのデータを活用することによって、ポリシー パラメーターとロボットの学習目標の依存関係を学習します。
これにより、ロボットとの対話時間が大幅に短縮されます。
このモデルを使用すると、ポリシーの更新ごとに高い確率で改善を保証できるため、迅速な目標指向の学習が促進されます。
シミュレートされた微調整タスクでアルゴリズムを評価し、提案された二重情報ソース最適化アルゴリズムのデータ効率を実証します。
実際のロボット学習実験では、不完全なシミュレーターを利用したロボット マニピュレーターでのタスク学習が高速かつ成功することを示します。

要約(オリジナル)

How can robots learn and adapt to new tasks and situations with little data? Systematic exploration and simulation are crucial tools for efficient robot learning. We present a novel black-box policy search algorithm focused on data-efficient policy improvements. The algorithm learns directly on the robot and treats simulation as an additional information source to speed up the learning process. At the core of the algorithm, a probabilistic model learns the dependence of the policy parameters and the robot learning objective not only by performing experiments on the robot, but also by leveraging data from a simulator. This substantially reduces interaction time with the robot. Using this model, we can guarantee improvements with high probability for each policy update, thereby facilitating fast, goal-oriented learning. We evaluate our algorithm on simulated fine-tuning tasks and demonstrate the data-efficiency of the proposed dual-information source optimization algorithm. In a real robot learning experiment, we show fast and successful task learning on a robot manipulator with the aid of an imperfect simulator.

arxiv情報

著者 Shiming He,Alexander von Rohr,Dominik Baumann,Ji Xiang,Sebastian Trimpe
発行日 2024-11-21 15:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク