Learning global control of underactuated systems with Model-Based Reinforcement Learning

要約

この短い論文では、ICRA 2025で開催された「RealaigymとのAIオリンピック」コンペティションの第3版のための提案されたソリューションについて説明します。私たちは、さまざまな低次元のロックティックなタスクにわたって並外れたデータ効率で認識されているMBRLアルゴリズムであるMBRLアルゴリズムであるMCH-Carlo確率推論(MC-Pilco)を採用しました。
MC-Pilcoは、インタラクションデータを使用してシステムダイナミクスモデルを最適化し、直接システムデータの最適化ではなく、シミュレーションによるポリシーの改良を可能にします。
このアプローチは、物理システムで非常に効果的であることが証明されており、モデルフリー(MF)の代替案よりもデータ効率が高くなります。
特に、MC-Pilcoは以前、このコンペティションの最初の2つのエディションで優勝しており、シミュレートされた環境と現実世界の両方の環境でその堅牢性を示しています。
アルゴリズムを簡単に確認することに加えて、手元のタスクでのMC-Pilco実装の最も重要な側面について説明します。ペンドボットおよびアクロボットシステムのグローバルポリシーを学習します。

要約(オリジナル)

This short paper describes our proposed solution for the third edition of the ‘AI Olympics with RealAIGym’ competition, held at ICRA 2025. We employed Monte-Carlo Probabilistic Inference for Learning Control (MC-PILCO), an MBRL algorithm recognized for its exceptional data efficiency across various low-dimensional robotic tasks, including cart-pole, ball \& plate, and Furuta pendulum systems. MC-PILCO optimizes a system dynamics model using interaction data, enabling policy refinement through simulation rather than direct system data optimization. This approach has proven highly effective in physical systems, offering greater data efficiency than Model-Free (MF) alternatives. Notably, MC-PILCO has previously won the first two editions of this competition, demonstrating its robustness in both simulated and real-world environments. Besides briefly reviewing the algorithm, we discuss the most critical aspects of the MC-PILCO implementation in the tasks at hand: learning a global policy for the pendubot and acrobot systems.

arxiv情報

著者 Niccolò Turcato,Marco Calì,Alberto Dalla Libera,Giulio Giacomuzzo,Ruggero Carli,Diego Romeres
発行日 2025-04-09 09:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク