Real-World Humanoid Locomotion with Reinforcement Learning

要約

多様な環境で自律的に動作できる人型ロボットは、工場での人手不足に対処したり、家庭で高齢者を支援したり、新しい惑星に植民地を形成したりするのに役立つ可能性があります。
人型ロボット用の古典的なコントローラーは多くの設定で素晴らしい結果を示してきましたが、一般化して新しい環境に適応するのは困難です。
ここでは、現実世界のヒューマノイドの移動に対する完全な学習ベースのアプローチを紹介します。
私たちのコントローラーは、固有受容観察と行動の履歴を入力として受け取り、次の行動を予測する因果変換器です。
私たちは、観測と行動の履歴には、強力な変換モデルが重みを更新せずにコンテキスト内で動作を適応させるために使用できる世界に関する有用な情報が含まれていると仮説を立てます。
私たちは、シミュレーション内のランダム化された環境のアンサンブル上で大規模なモデルフリー強化学習を使用してモデルをトレーニングし、それを現実世界のゼロショットにデプロイします。
私たちのコントローラーは、さまざまな屋外の地形の上を歩くことができ、外乱に対して堅牢であり、状況に応じて適応できます。

要約(オリジナル)

Humanoid robots that can autonomously operate in diverse environments have the potential to help address labour shortages in factories, assist elderly at homes, and colonize new planets. While classical controllers for humanoid robots have shown impressive results in a number of settings, they are challenging to generalize and adapt to new environments. Here, we present a fully learning-based approach for real-world humanoid locomotion. Our controller is a causal transformer that takes the history of proprioceptive observations and actions as input and predicts the next action. We hypothesize that the observation-action history contains useful information about the world that a powerful transformer model can use to adapt its behavior in-context, without updating its weights. We train our model with large-scale model-free reinforcement learning on an ensemble of randomized environments in simulation and deploy it to the real world zero-shot. Our controller can walk over various outdoor terrains, is robust to external disturbances, and can adapt in context.

arxiv情報

著者 Ilija Radosavovic,Tete Xiao,Bike Zhang,Trevor Darrell,Jitendra Malik,Koushil Sreenath
発行日 2023-12-14 16:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク