LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots

要約

強化学習 (RL) は、シミュレーションから現実への移行を通じて、脚の移動においてその顕著かつ一般化可能な能力を示しました。
ただし、ドメインのランダム化などの適応手法は、多様な環境に対してポリシーをより堅牢にすることが期待されていますが、そのような包括性は、ノー フリー ランチ定理に従って、特定の環境におけるポリシーのパフォーマンスを潜在的に損なう可能性があり、実際に展開されると次善のソリューションにつながる可能性があります。

この問題に対処するために、私たちは LoopSR と呼ばれる生涯にわたる政策適応フレームワークを提案します。これは、トランスベースのエンコーダーを利用して現実世界の軌跡を潜在空間に投影し、それに応じてシミュレーションで現実世界の環境を再構築してさらなる改善を図ります。
現実世界のダイナミクスの特性をより適切に抽出するために、オートエンコーダー アーキテクチャと対照的な学習方法が採用されています。
継続的トレーニングのシミュレーション パラメーターは、デコーダーからの予測パラメーターとシミュレーション軌跡データセットから取得したパラメーターを組み合わせることによって導出されます。
継続的なトレーニングを活用することで、LoopSR は強力なベースラインと比較して優れたデータ効率を実現し、限られた量のデータのみでシミュレーション間実験とシミュレーション間実験の両方で卓越したパフォーマンスをもたらします。

要約(オリジナル)

Reinforcement Learning (RL) has shown its remarkable and generalizable capability in legged locomotion through sim-to-real transfer. However, while adaptive methods like domain randomization are expected to make policy more robust to diverse environments, such comprehensiveness potentially detracts from the policy’s performance in any specific environment according to the No Free Lunch theorem, leading to a suboptimal solution once deployed in the real world. To address this issue, we propose a lifelong policy adaptation framework named LoopSR, which utilizes a transformer-based encoder to project real-world trajectories into a latent space, and accordingly reconstruct the real-world environments back in simulation for further improvement. Autoencoder architecture and contrastive learning methods are adopted to better extract the characteristics of real-world dynamics. The simulation parameters for continual training are derived by combining predicted parameters from the decoder with retrieved parameters from the simulation trajectory dataset. By leveraging the continual training, LoopSR achieves superior data efficiency compared with strong baselines, with only a limited amount of data to yield eminent performance in both sim-to-sim and sim-to-real experiments.

arxiv情報

著者 Peilin Wu,Weiji Xie,Jiahang Cao,Hang Lai,Weinan Zhang
発行日 2024-09-26 16:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク