Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer

要約

深層強化学習は、物理シミュレーションでポリシーをトレーニングし、それを現実世界に転送する (つまり、sim-to-real transfer) ことにより、複数の地形での脚による移動の魅力的な代替手段として最近登場しました。
かなりの進歩にもかかわらず、従来のニューラル ネットワークの容量とスケーラビリティは依然として制限されており、より複雑な環境でのアプリケーションを妨げる可能性があります。
対照的に、Transformer アーキテクチャは、自然言語処理や意思決定の問題など、広範囲にわたる大規模なシーケンス モデリング タスクでその優位性を示しています。
この論文では、さまざまな地形での四足歩行制御用の大容量トランスフォーマー モデルであるテレイン トランスフォーマー (TERT) を提案します。
さらに、sim-to-real シナリオで Transformer をより有効に活用するために、オフラインの事前トレーニング段階とオンライン修正段階から構成される新しい 2 段階のトレーニング フレームワークを提示します。これにより、Transformer を特権トレーニングと自然に統合できます。
シミュレーションでの広範な実験は、リターン、エネルギー消費、および制御の滑らかさの点で、TERT がさまざまな地形で最先端のベースラインよりも優れていることを示しています。
実世界でのさらなる検証では、TERT は、強力なベースラインでは達成できない砂場や階段を含む 9 つの困難な地形をうまく横断します。

要約(オリジナル)

Deep reinforcement learning has recently emerged as an appealing alternative for legged locomotion over multiple terrains by training a policy in physical simulation and then transferring it to the real world (i.e., sim-to-real transfer). Despite considerable progress, the capacity and scalability of traditional neural networks are still limited, which may hinder their applications in more complex environments. In contrast, the Transformer architecture has shown its superiority in a wide range of large-scale sequence modeling tasks, including natural language processing and decision-making problems. In this paper, we propose Terrain Transformer (TERT), a high-capacity Transformer model for quadrupedal locomotion control on various terrains. Furthermore, to better leverage Transformer in sim-to-real scenarios, we present a novel two-stage training framework consisting of an offline pretraining stage and an online correction stage, which can naturally integrate Transformer with privileged training. Extensive experiments in simulation demonstrate that TERT outperforms state-of-the-art baselines on different terrains in terms of return, energy consumption and control smoothness. In further real-world validation, TERT successfully traverses nine challenging terrains, including sand pit and stair down, which can not be accomplished by strong baselines.

arxiv情報

著者 Hang Lai,Weinan Zhang,Xialin He,Chen Yu,Zheng Tian,Yong Yu,Jun Wang
発行日 2023-03-21 06:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク