Learning Humanoid Locomotion with Transformers

要約

我々は、実世界のヒューマノイドのロコモーションのためのシムトゥリアル学習ベースのアプローチを発表する。我々のコントローラは、観測と行動の履歴から将来の行動を自己回帰的に予測することによって訓練された因果的なTransformerである。我々は、観測と行動の履歴には、強力なTransformerモデルが、重みを更新することなく、文脈に応じて行動を適応させるために使用できる、世界に関する有用な情報が含まれていると仮定している。我々は、状態推定、ダイナミクスモデル、軌道最適化、参照軌道、または事前に計算された歩行ライブラリを使用しない。我々のコントローラは、シミュレーションでランダムな環境のアンサンブルに対して大規模なモデルフリー強化学習で訓練され、ゼロショット方式で実世界に展開される。我々は、高忠実度のシミュレーションで我々のアプローチを評価し、同様に実ロボットへの展開に成功した。我々の知る限り、これは実世界のフルサイズのヒューマノイド・ロコモーションのための完全な学習ベースの手法の最初のデモンストレーションである。

要約(オリジナル)

We present a sim-to-real learning-based approach for real-world humanoid locomotion. Our controller is a causal Transformer trained by autoregressive prediction of future actions from the history of observations and actions. We hypothesize that the observation-action history contains useful information about the world that a powerful Transformer model can use to adapt its behavior in-context, without updating its weights. We do not use state estimation, dynamics models, trajectory optimization, reference trajectories, or pre-computed gait libraries. Our controller is trained with large-scale model-free reinforcement learning on an ensemble of randomized environments in simulation and deployed to the real world in a zero-shot fashion. We evaluate our approach in high-fidelity simulation and successfully deploy it to the real robot as well. To the best of our knowledge, this is the first demonstration of a fully learning-based method for real-world full-sized humanoid locomotion.

arxiv情報

著者 Ilija Radosavovic,Tete Xiao,Bike Zhang,Trevor Darrell,Jitendra Malik,Koushil Sreenath
発行日 2023-03-06 18:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク