PTRL: Prior Transfer Deep Reinforcement Learning for Legged Robots Locomotion

要約

脚のあるロボットモーションコントロールの分野では、Renforce Learning(RL)は非常に有望ですが、2つの主要な課題に直面しています。個々のロボットをトレーニングするための高い計算コストと、訓練されたモデルの一般化が不十分です。
これらの問題に対処するために、このペーパーでは、さまざまなロボット間のトレーニング効率とモデル移転性の両方を向上させる、事前移動補強学習(PTRL)と呼ばれる新しいフレームワークを提案しています。
深い学習におけるモデル転送技術からインスピレーションを得て、PTRLは、転送中にポリシーネットワークの層を選択的にフリーズする微調整メカニズムを導入し、RLでそのような方法を最初に適用しました。
フレームワークは、近位ポリシー最適化(PPO)アルゴリズムを使用したソースロボットの事前トレーニング、学習ポリシーをターゲットロボットに転送し、部分的なネットワークフリーズで微調整する3つの段階で構成されています。
さまざまなロボットプラットフォームでの広範な実験により、このアプローチにより、パフォーマンスを維持または改善しながら、トレーニング時間が大幅に短縮されることが確認されています。
さらに、この研究では、凍結層の比率が転送結果にどのように影響するかを定量的に分析し、プロセスの最適化に関する貴重な洞察を提供します。
実験結果は、PTRLがより良いウォーキング制御性能を達成し、強力な一般化と適応性を実証し、脚のロボットの効率的でスケーラブルなRLベースの制御のための有望なソリューションを提供することを示しています。

要約(オリジナル)

In the field of legged robot motion control, reinforcement learning (RL) holds great promise but faces two major challenges: high computational cost for training individual robots and poor generalization of trained models. To address these problems, this paper proposes a novel framework called Prior Transfer Reinforcement Learning (PTRL), which improves both training efficiency and model transferability across different robots. Drawing inspiration from model transfer techniques in deep learning, PTRL introduces a fine-tuning mechanism that selectively freezes layers of the policy network during transfer, making it the first to apply such a method in RL. The framework consists of three stages: pre-training on a source robot using the Proximal Policy Optimization (PPO) algorithm, transferring the learned policy to a target robot, and fine-tuning with partial network freezing. Extensive experiments on various robot platforms confirm that this approach significantly reduces training time while maintaining or even improving performance. Moreover, the study quantitatively analyzes how the ratio of frozen layers affects transfer results, providing valuable insights into optimizing the process. The experimental outcomes show that PTRL achieves better walking control performance and demonstrates strong generalization and adaptability, offering a promising solution for efficient and scalable RL-based control of legged robots.

arxiv情報

著者 Haodong Huang,Shilong Sun,Zida Zhao,Hailin Huang,Changqing Shen,Wenfu Xu
発行日 2025-04-08 03:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク