Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems

要約

追跡コントローラは、ロボットシステムが計画された基準軌道を正確に追跡することを可能にする。特に強化学習(RL)は、複雑なダイナミクスを持ち、オンライン計算バジェットが控えめなシステムのコントローラ合成に有望である。しかし、RLはサンプル効率が悪く、報酬設計が難しいため、特に高次元システムでは学習に時間がかかり、時には不安定になる。本研究では、浮動ベースを持つロボットシステムに固有のリー群対称性を活用し、トラッキングコントローラを学習する際のこれらの課題を軽減する。我々は、一般的な追跡問題を、物理状態と参照状態の両方の進化を捉えるマルコフ決定過程(MDP)としてモデル化する。次に、基礎となるダイナミクスとランニングコストにおける対称性が、MDPの同型性、つまり、低次元の「商」MDP上で学習されたポリシーを、元のシステムに対する最適なトラッキングコントローラに持ち上げることを可能にするマッピングにつながることを証明する。我々は、この対称性を考慮したアプローチと、構造化されていないベースラインとを比較し、Proximal Policy Optimization(PPO)を用いて、3つのシステム(Particle(強制点質量)、Astrobee(完全作動宇宙ロボット)、Quadrotor(低作動システム)のトラッキングコントローラを学習する。その結果、対称性を考慮したアプローチにより、学習が加速され、収束時のトラッキングエラーが減少することが示された。

要約(オリジナル)

Tracking controllers enable robotic systems to accurately follow planned reference trajectories. In particular, reinforcement learning (RL) has shown promise in the synthesis of controllers for systems with complex dynamics and modest online compute budgets. However, the poor sample efficiency of RL and the challenges of reward design make training slow and sometimes unstable, especially for high-dimensional systems. In this work, we leverage the inherent Lie group symmetries of robotic systems with a floating base to mitigate these challenges when learning tracking controllers. We model a general tracking problem as a Markov decision process (MDP) that captures the evolution of both the physical and reference states. Next, we prove that symmetry in the underlying dynamics and running costs leads to an MDP homomorphism, a mapping that allows a policy trained on a lower-dimensional ‘quotient’ MDP to be lifted to an optimal tracking controller for the original system. We compare this symmetry-informed approach to an unstructured baseline, using Proximal Policy Optimization (PPO) to learn tracking controllers for three systems: the Particle (a forced point mass), the Astrobee (a fullyactuated space robot), and the Quadrotor (an underactuated system). Results show that a symmetry-aware approach both accelerates training and reduces tracking error at convergence.

arxiv情報

著者 Jake Welde,Nishanth Rao,Pratik Kunapuli,Dinesh Jayaraman,Vijay Kumar
発行日 2025-05-01 20:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク