Tracking Control for a Spherical Pendulum via Curriculum Reinforcement Learning

要約

強化学習 (RL) を使用すると、単純ではないロボット制御法則を純粋にデータから学習できます。
ただし、成功した RL アプリケーションの多くは、学習パフォーマンスを正規化するために、手作りのカリキュラムなどのアドホックな正規化に依存していました。
この論文では、大規模並列シミュレーションでカリキュラムを自動的に構築する最新のアルゴリズムと RL を組み合わせて、RL を介してロボット アーム上の球面振り子の追跡コントローラーを学習します。
非ユークリッド タスク構造をより適切に尊重する改良された最適化スキームを通じて、この方法で追跡される軌跡のカリキュラムを確実に生成できるようになり、その結果、この形式の構造化学習を利用しない RL ベースラインと比較して、より高速でより堅牢な学習が実現します。

学習されたポリシーは、実際のシステム上の最適な制御ベースラインのパフォーマンスと一致し、非線形追跡タスクの状態推定と制御を共同で学習するカリキュラム RL の可能性を示しています。

要約(オリジナル)

Reinforcement Learning (RL) allows learning non-trivial robot control laws purely from data. However, many successful applications of RL have relied on ad-hoc regularizations, such as hand-crafted curricula, to regularize the learning performance. In this paper, we pair a recent algorithm for automatically building curricula with RL on massively parallelized simulations to learn a tracking controller for a spherical pendulum on a robotic arm via RL. Through an improved optimization scheme that better respects the non-Euclidean task structure, we allow the method to reliably generate curricula of trajectories to be tracked, resulting in faster and more robust learning compared to an RL baseline that does not exploit this form of structured learning. The learned policy matches the performance of an optimal control baseline on the real system, demonstrating the potential of curriculum RL to jointly learn state estimation and control for non-linear tracking tasks.

arxiv情報

著者 Pascal Klink,Florian Wolf,Kai Ploeger,Jan Peters,Joni Pajarinen
発行日 2023-09-25 12:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク