要約
時間によるバックプロパゲーション(Backpropagation through Time)や解析的政策勾配(Analytical Policy Gradients)などの一次政策勾配(First-order Policy Gradient:FoPG)アルゴリズムは、局所的なシミュレーション物理を活用して政策探索を加速し、標準的なモデルなし強化学習と比較してロボット制御のサンプル効率を大幅に改善する。しかし、FoPGアルゴリズムは、ロコモーションのような接触が多いタスクでは、学習ダイナミクスが悪くなる可能性がある。これまでのアプローチでは、アルゴリズムやシミュレーションの工夫により接触ダイナミクスを緩和することでこの問題に対処してきた。これに対して我々は、単純なベースライン・ポリシーの残差を学習することで、ポリシー探索を誘導することを提案する。四足歩行の場合、FoPGに基づく学習(FoPG RPL)における残差ポリシーの学習の役割は、モデルフリーRLのサンプル効率の改善と比較して、主に漸近的な報酬を改善することである。さらに、FoPGをピクセルベースのローカルナビゲーションに適用することで、点マスロボットを数秒で収束させる訓練を行うことができる。最後に、FoPG RPLを用いて、四足歩行ロボットのロコモーションと知覚ナビゲーションをエンドツーエンドで数分で訓練することで、FoPG RPLの多用途性を示す。
要約(オリジナル)
First-order Policy Gradient (FoPG) algorithms such as Backpropagation through Time and Analytical Policy Gradients leverage local simulation physics to accelerate policy search, significantly improving sample efficiency in robot control compared to standard model-free reinforcement learning. However, FoPG algorithms can exhibit poor learning dynamics in contact-rich tasks like locomotion. Previous approaches address this issue by alleviating contact dynamics via algorithmic or simulation innovations. In contrast, we propose guiding the policy search by learning a residual over a simple baseline policy. For quadruped locomotion, we find that the role of residual policy learning in FoPG-based training (FoPG RPL) is primarily to improve asymptotic rewards, compared to improving sample efficiency for model-free RL. Additionally, we provide insights on applying FoPG’s to pixel-based local navigation, training a point-mass robot to convergence within seconds. Finally, we showcase the versatility of FoPG RPL by using it to train locomotion and perceptive navigation end-to-end on a quadruped in minutes.
arxiv情報
著者 | Jing Yuan Luo,Yunlong Song,Victor Klemm,Fan Shi,Davide Scaramuzza,Marco Hutter |
発行日 | 2024-10-04 01:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |