要約
タイトル:ディープ強化学習を用いた2足歩行ロボットの俊敏なサッカー技能の学習
要約:
– 低コストのミニチュア人型ロボットに高度かつ安全な動きを合成することができるかどうか、ディープ強化学習(Deep RL)を調査しています。
– 我々は、20個の駆動ジョイントを持つヒューマノイドロボットに簡略化された1対1(1v1)サッカーゲームのプレイを訓練し、Deep RLを使用しました。
– 最初に個別のスキルを分離してトレーニングし、それらのスキルをセルフプレイの設定でエンドツーエンドで構成しました。
– 結果として得られる方針は、迅速な転倒回復、歩行、転回、キックなどの堅牢で動的な動作技能を示し、それらの間を滑らかで安定かつ効率的に移行します。エージェントはまた、ゲームの基本的な戦略的理解を獲得し、例えばボールの動きを予測し、相手のショットをブロックすることを学習しました。
– 全範囲の行動は、一連のシンプルな報酬から生じました。
– シミュレーションでトレーニングされたエージェントがゼロショットで実際のロボットに転移した。
– 我々は、十分な高周波制御、ターゲットダイナミクスのランダム化、およびシミュレーション中のトレーニング中の摂動の組み合わせが、重要な設計上の下回る未モデリング効果とロボットの複数インスタンス間の変動にもかかわらず、品質の良い転送を可能にすることを発見しました。
– ロボットは本質的には壊れやすいですが、トレーニング中の行動の基本的な正則化と小さなハードウェアの修正により、ダイナミックで俊敏な動きをしながら安全かつ効果的な動きを学習しました。
– 実験では、エージェントはスコアリングに最適化されていましたが、スクリプトベースラインより156%速く歩き、63%の時間を節約し、24%速くキックを行い、必要な長期的な目標を効率的に実現するためにスキルを組み合わせました。
要約(オリジナル)
We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. We first trained individual skills in isolation and then composed those skills end-to-end in a self-play setting. The resulting policy exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and transitions between them in a smooth, stable, and efficient manner – well beyond what is intuitively expected from the robot. The agents also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. The full range of behaviors emerged from a small set of simple rewards. Our agents were trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer, despite significant unmodeled effects and variations across robot instances. Although the robots are inherently fragile, minor hardware modifications together with basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way. Indeed, even though the agents were optimized for scoring, in experiments they walked 156% faster, took 63% less time to get up, and kicked 24% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives. Examples of the emergent behaviors and full 1v1 matches are available on the supplementary website.
arxiv情報
著者 | Tuomas Haarnoja,Ben Moran,Guy Lever,Sandy H. Huang,Dhruva Tirumala,Markus Wulfmeier,Jan Humplik,Saran Tunyasuvunakool,Noah Y. Siegel,Roland Hafner,Michael Bloesch,Kristian Hartikainen,Arunkumar Byravan,Leonard Hasenclever,Yuval Tassa,Fereshteh Sadeghi,Nathan Batchelor,Federico Casarini,Stefano Saliceti,Charles Game,Neil Sreendra,Kushal Patel,Marlon Gwira,Andrea Huber,Nicole Hurley,Francesco Nori,Raia Hadsell,Nicolas Heess |
発行日 | 2023-04-26 16:25:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI