要約
ロボットはどのようにして少ないデータで新しいタスクや状況を学習し、適応できるのでしょうか?
体系的な探索とシミュレーションは、ロボットを効率的に学習するための重要なツールです。
データ効率の高いポリシーの改善に焦点を当てた、新しいブラックボックス ポリシー検索アルゴリズムを紹介します。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスをスピードアップします。
アルゴリズムの中核となる確率モデルは、ロボット上で実験を実行するだけでなく、シミュレーターからのデータを活用することによって、ポリシー パラメーターとロボットの学習目標の依存関係を学習します。
これにより、ロボットとの対話時間が大幅に短縮されます。
このモデルを使用すると、ポリシーの更新ごとに高い確率で改善を保証できるため、迅速な目標指向の学習が促進されます。
シミュレートされた微調整タスクでアルゴリズムを評価し、提案された二重情報ソース最適化アルゴリズムのデータ効率を実証します。
実際のロボット学習実験では、不完全なシミュレーターを利用したロボット マニピュレーターでのタスク学習が高速かつ成功することを示します。
要約(オリジナル)
How can robots learn and adapt to new tasks and situations with little data? Systematic exploration and simulation are crucial tools for efficient robot learning. We present a novel black-box policy search algorithm focused on data-efficient policy improvements. The algorithm learns directly on the robot and treats simulation as an additional information source to speed up the learning process. At the core of the algorithm, a probabilistic model learns the dependence of the policy parameters and the robot learning objective not only by performing experiments on the robot, but also by leveraging data from a simulator. This substantially reduces interaction time with the robot. Using this model, we can guarantee improvements with high probability for each policy update, thereby facilitating fast, goal-oriented learning. We evaluate our algorithm on simulated fine-tuning tasks and demonstrate the data-efficiency of the proposed dual-information source optimization algorithm. In a real robot learning experiment, we show fast and successful task learning on a robot manipulator with the aid of an imperfect simulator.
arxiv情報
著者 | Shiming He,Alexander von Rohr,Dominik Baumann,Ji Xiang,Sebastian Trimpe |
発行日 | 2024-11-21 15:52:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google