Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

要約

私たちは、深層強化学習 (Deep RL) が、動的環境における複雑な行動戦略を構成できる低コストの小型ヒューマノイド ロボットの洗練された安全な動作スキルを統合できるかどうかを調査します。
Deep RL を使用して、20 個の作動ジョイントを備えた人型ロボットをトレーニングし、簡素化された 1 対 1 (1v1) のサッカー ゲームをプレイしました。
結果として得られるエージェントは、転倒からの素早い回復、歩行、方向転換、蹴りなどの堅牢でダイナミックな動作スキルを示します。
そして、それらの間をスムーズ、安定、効率的な方法で移行します。
エージェントの移動と戦術的な動作は、手動で設計するのが現実的ではない方法で、特定のゲーム コンテキストに適応します。
また、エージェントはゲームの基本的な戦略的理解を深め、たとえばボールの動きを予測したり、相手のシュートをブロックしたりすることを学びました。
私たちのエージェントはシミュレーションでトレーニングされ、ゼロショットで実際のロボットに転送されました。
十分に高い周波数の制御、ターゲットを絞ったダイナミクスのランダム化、およびシミュレーションでのトレーニング中の摂動を組み合わせることで、高品質の転送が可能になることがわかりました。
ロボットは本質的に壊れやすいものですが、トレーニング中の動作の基本的な規則化により、ロボットは安全で効果的な動作を学習しながら、動的かつ機敏な方法で動作できるようになりました。これは、ロボットに直感的に期待されるものをはるかに超えています。
実際、実験では、長期的な目標を達成するためのスキルを効率的に組み合わせながら、スクリプトに基づいたベースラインよりも、彼らは 181% 早く歩き、302% 早く回転し、立ち上がるのにかかる時間が 63% 短く、ボールを蹴るのが 34% 早くなりました。

要約(オリジナル)

We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. The resulting agent exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and it transitions between them in a smooth, stable, and efficient manner. The agent’s locomotion and tactical behavior adapts to specific game contexts in a way that would be impractical to manually design. The agent also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. Our agent was trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer. Although the robots are inherently fragile, basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way — well beyond what is intuitively expected from the robot. Indeed, in experiments, they walked 181% faster, turned 302% faster, took 63% less time to get up, and kicked a ball 34% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives.

arxiv情報

著者 Tuomas Haarnoja,Ben Moran,Guy Lever,Sandy H. Huang,Dhruva Tirumala,Jan Humplik,Markus Wulfmeier,Saran Tunyasuvunakool,Noah Y. Siegel,Roland Hafner,Michael Bloesch,Kristian Hartikainen,Arunkumar Byravan,Leonard Hasenclever,Yuval Tassa,Fereshteh Sadeghi,Nathan Batchelor,Federico Casarini,Stefano Saliceti,Charles Game,Neil Sreendra,Kushal Patel,Marlon Gwira,Andrea Huber,Nicole Hurley,Francesco Nori,Raia Hadsell,Nicolas Heess
発行日 2024-04-11 09:50:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク