Lifelike Agility and Play on Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models

要約

動物と人間から得た知識を要約することで、ロボットのイノベーションが生まれます。
この研究では、脚式ロボットが複雑な環境において本物のような機敏性と戦略を持って本物の動物のように動作するようにするためのフレームワークを提案します。
言語と画像の理解において印象的なパフォーマンスを示した大規模な事前トレーニング済みモデルに触発され、脚付きロボットが本物の動物のように行動するように刺激するモーター制御信号を生成する高度な深層生成モデルの力を導入します。
従来のコントローラーやタスク固有のエンドツーエンド RL 手法とは異なり、動物の行動に関する表現的な知識を保存するために、動物の動作データセットに対して生成モデルを事前トレーニングすることを提案します。
事前トレーニングされたモデルは、十分な原始レベルの知識を保持していますが、環境に依存しません。
その後、これは、狭い空間を忍び寄る、ハードルを飛び越える、散らばったブロックの上をフリーランニングするなど、これまでのアプローチではほとんど考慮されなかった多くの困難な障害物を横断することによって、環境に適応する学習の次の段階で再利用されます。
タスク固有のコントローラーは、前の段階からの知識を再利用することで、複雑な下流タスクを解決するように訓練されます。
各段階に関する知識を強化しても、他のレベルの知識の使用には影響しません。
この柔軟なフレームワークは、さまざまなレベルでの継続的な知識の蓄積の可能性を提供します。
私たちは、訓練されたマルチレベル コントローラーを社内で開発された四足歩行ロボットである MAX ロボットに適用することに成功し、動物を模倣し、複雑な障害物を横断し、設計された挑戦的なマルチエージェント チェイス タグ ゲームでプレイします。そこでは本物のような機敏性と戦略が現れます。
ロボットたち。
本研究は、マルチレベルの事前トレーニング済み知識の再利用と、現実世界での非常に複雑な下流タスクの解決に関する新たな洞察により、ロボット制御の最前線を押し広げます。

要約(オリジナル)

Summarizing knowledge from animals and human beings inspires robotic innovations. In this work, we propose a framework for driving legged robots act like real animals with lifelike agility and strategy in complex environments. Inspired by large pre-trained models witnessed with impressive performance in language and image understanding, we introduce the power of advanced deep generative models to produce motor control signals stimulating legged robots to act like real animals. Unlike conventional controllers and end-to-end RL methods that are task-specific, we propose to pre-train generative models over animal motion datasets to preserve expressive knowledge of animal behavior. The pre-trained model holds sufficient primitive-level knowledge yet is environment-agnostic. It is then reused for a successive stage of learning to align with the environments by traversing a number of challenging obstacles that are rarely considered in previous approaches, including creeping through narrow spaces, jumping over hurdles, freerunning over scattered blocks, etc. Finally, a task-specific controller is trained to solve complex downstream tasks by reusing the knowledge from previous stages. Enriching the knowledge regarding each stage does not affect the usage of other levels of knowledge. This flexible framework offers the possibility of continual knowledge accumulation at different levels. We successfully apply the trained multi-level controllers to the MAX robot, a quadrupedal robot developed in-house, to mimic animals, traverse complex obstacles, and play in a designed challenging multi-agent Chase Tag Game, where lifelike agility and strategy emerge on the robots. The present research pushes the frontier of robot control with new insights on reusing multi-level pre-trained knowledge and solving highly complex downstream tasks in the real world.

arxiv情報

著者 Lei Han,Qingxu Zhu,Jiapeng Sheng,Chong Zhang,Tingguang Li,Yizheng Zhang,He Zhang,Yuzhen Liu,Cheng Zhou,Rui Zhao,Jie Li,Yufeng Zhang,Rui Wang,Wanchao Chi,Xiong Li,Yonghui Zhu,Lingzhu Xiang,Xiao Teng,Zhengyou Zhang
発行日 2023-08-29 09:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク