Integrating Model-Based Footstep Planning with Model-Free Reinforcement Learning for Dynamic Legged Locomotion


この研究では、モデルベースの足跡計画と強化学習 (RL) を組み合わせた制御フレームワークを導入し、線形倒立振子 (LIP) ダイナミクスから導出された望ましい足跡パターンを活用します。
LIP モデルを利用して、私たちの方法はロボットの状態を前向きに予測し、速度コマンドが与えられた場合に望ましい足の位置を決定します。
次に、LIP モデルから得られた完全な参照モーションに従わずに足の位置を追跡するように RL ポリシーをトレーニングします。
物理モデルからのこの部分的なガイダンスにより、RL ポリシーは、ポリシーをテンプレート モデルにオーバーフィットすることなく、物理学に基づいたダイナミクスの予測機能と RL コントローラーの適応特性を統合できます。
私たちのアプローチは MIT ヒューマノイドで検証され、私たちのポリシーが歩行や方向転換のための安定したダイナミックな移動を実現できることを示しています。
ハードウェアの導入中に、トレッドミルで最大 1.5 m/s の前方歩行速度を達成し、90 度や 180 度の回転などの動的な移動操作の実行に成功しました。


In this work, we introduce a control framework that combines model-based footstep planning with Reinforcement Learning (RL), leveraging desired footstep patterns derived from the Linear Inverted Pendulum (LIP) dynamics. Utilizing the LIP model, our method forward predicts robot states and determines the desired foot placement given the velocity commands. We then train an RL policy to track the foot placements without following the full reference motions derived from the LIP model. This partial guidance from the physics model allows the RL policy to integrate the predictive capabilities of the physics-informed dynamics and the adaptability characteristics of the RL controller without overfitting the policy to the template model. Our approach is validated on the MIT Humanoid, demonstrating that our policy can achieve stable yet dynamic locomotion for walking and turning. We further validate the adaptability and generalizability of our policy by extending the locomotion task to unseen, uneven terrain. During the hardware deployment, we have achieved forward walking speeds of up to 1.5 m/s on a treadmill and have successfully performed dynamic locomotion maneuvers such as 90-degree and 180-degree turns.


著者 Ho Jae Lee,Seungwoo Hong,Sangbae Kim
発行日 2024-08-05 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク