TWIST: Teacher-Student World Model Distillation for Efficient Sim-to-Real Transfer


モデルベース RL は、モデルフリー RL と比較してサンプル効率と一般化機能が向上しているため、現実世界のロボット工学にとって有望なアプローチです。
ただし、ビジョンベースの実世界アプリケーション向けの効果的なモデルベースの RL ソリューションでは、学習された世界モデルのシミュレーションと現実のギャップを埋める必要があります。
この論文は、蒸留を使用してビジョンベースのモデルベースの RL の効率的な sim-to-real 転送を実現する TWIST (Teacher-Student World Model Distillation for Sim-to-Real Transfer) を提案します。
具体的には、TWIST は、シミュレーターから一般的に収集される容易にアクセスできる特権情報として状態観察を活用し、シミュレーションからリアルへの転送を大幅に加速します。
具体的には、教師ワールド モデルは状態情報に基づいて効率的にトレーニングされます。
学習された潜在力学モデルを教師から生徒モデルに蒸留することにより、TWIST は、ビジョンベースのモデルベースの RL タスクに対する効率的かつ効果的なシミュレーションからリアルへの転送を実現します。


Model-based RL is a promising approach for real-world robotics due to its improved sample efficiency and generalization capabilities compared to model-free RL. However, effective model-based RL solutions for vision-based real-world applications require bridging the sim-to-real gap for any world model learnt. Due to its significant computational cost, standard domain randomisation does not provide an effective solution to this problem. This paper proposes TWIST (Teacher-Student World Model Distillation for Sim-to-Real Transfer) to achieve efficient sim-to-real transfer of vision-based model-based RL using distillation. Specifically, TWIST leverages state observations as readily accessible, privileged information commonly garnered from a simulator to significantly accelerate sim-to-real transfer. Specifically, a teacher world model is trained efficiently on state information. At the same time, a matching dataset is collected of domain-randomised image observations. The teacher world model then supervises a student world model that takes the domain-randomised image observations as input. By distilling the learned latent dynamics model from the teacher to the student model, TWIST achieves efficient and effective sim-to-real transfer for vision-based model-based RL tasks. Experiments in simulated and real robotics tasks demonstrate that our approach outperforms naive domain randomisation and model-free methods in terms of sample efficiency and task performance of sim-to-real transfer.


著者 Jun Yamada,Marc Rigter,Jack Collins,Ingmar Posner
発行日 2023-11-07 00:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク