要約
トラッキング コントローラーを使用すると、ロボット システムが計画された基準軌道に正確に従うことができます。
特に、強化学習 (RL) は、複雑なダイナミクスと控えめなオンライン コンピューティング予算を持つシステムのコントローラーの合成において有望であることが示されています。
ただし、RL のサンプル効率の低さと報酬設計の課題により、特に高次元システムの場合、トレーニングが遅くなり、場合によっては不安定になります。
この研究では、フローティング ベースを備えたロボット システムに固有のリー群対称性を利用して、追跡コントローラーを学習する際のこれらの課題を軽減します。
一般的な追跡問題を、物理状態と参照状態の両方の進化を捉えるマルコフ決定プロセス (MDP) としてモデル化します。
次に、基礎となるダイナミクスとランニングコストの対称性が MDP 準同型性、つまり低次元の「商」MDP でトレーニングされたポリシーを元のシステムの最適な追跡コントローラーにリフトできるマッピングにつながることを証明します。
この対称情報に基づいたアプローチを非構造化ベースラインと比較し、近接ポリシー最適化 (PPO) を使用して、パーティクル (強制点質量)、アストロビー (完全に作動する宇宙ロボット)、およびクアドローターの 3 つのシステムの追跡コントローラーを学習します。
(システムの作動が不十分です)。
結果は、対称性を意識したアプローチはトレーニングを加速し、同じ数のトレーニング ステップ後の追跡エラーを減らすことを示しています。
要約(オリジナル)
Tracking controllers enable robotic systems to accurately follow planned reference trajectories. In particular, reinforcement learning (RL) has shown promise in the synthesis of controllers for systems with complex dynamics and modest online compute budgets. However, the poor sample efficiency of RL and the challenges of reward design make training slow and sometimes unstable, especially for high-dimensional systems. In this work, we leverage the inherent Lie group symmetries of robotic systems with a floating base to mitigate these challenges when learning tracking controllers. We model a general tracking problem as a Markov decision process (MDP) that captures the evolution of both the physical and reference states. Next, we prove that symmetry in the underlying dynamics and running costs leads to an MDP homomorphism, a mapping that allows a policy trained on a lower-dimensional ‘quotient’ MDP to be lifted to an optimal tracking controller for the original system. We compare this symmetry-informed approach to an unstructured baseline, using Proximal Policy Optimization (PPO) to learn tracking controllers for three systems: the Particle (a forced point mass), the Astrobee (a fully-actuated space robot), and the Quadrotor (an underactuated system). Results show that a symmetry-aware approach both accelerates training and reduces tracking error after the same number of training steps.
arxiv情報
著者 | Jake Welde,Nishanth Rao,Pratik Kunapuli,Dinesh Jayaraman,Vijay Kumar |
発行日 | 2024-12-29 18:04:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google