要約
四足動物は、複雑な地形を横断する能力を急速に進歩させてきました。
ディープ補強学習(RL)、変圧器、およびさまざまな知識移転手法の採用により、SIMからリアルのギャップを大幅に減らすことができます。
ただし、既存の移動ポリシーで一般的に使用される古典的な教師と学生のフレームワークには、事前に訓練された教師が必要であり、学生ポリシーを導くために特権情報を活用します。
ロボット工学コントローラー、特に変圧器ベースのモデルに大規模なモデルが実装されているため、この知識蒸留技術は、複数の監視段階の要件により、効率の弱さを示し始めます。
このホワイトペーパーでは、特権情報を利用しながら、単一のネットワークでの知識移転とポリシーの最適化のプロセスを統合するための新しい変圧器ベースのフレームワークである統一された移動トランス(ULT)を提案します。
ポリシーは、強化学習、次の状態アクション予測、およびアクション模倣で最適化され、すべてが1つのトレーニング段階で、ゼロショットの展開を実現します。
評価の結果は、ULT、最適な教師と学生のポリシーを同時に取得できることを示しており、複雑な変圧器ベースのモデルであっても、知識移転の難しさを大幅に緩和することを示しています。
要約(オリジナル)
Quadrupeds have gained rapid advancement in their capability of traversing across complex terrains. The adoption of deep Reinforcement Learning (RL), transformers and various knowledge transfer techniques can greatly reduce the sim-to-real gap. However, the classical teacher-student framework commonly used in existing locomotion policies requires a pre-trained teacher and leverages the privilege information to guide the student policy. With the implementation of large-scale models in robotics controllers, especially transformers-based ones, this knowledge distillation technique starts to show its weakness in efficiency, due to the requirement of multiple supervised stages. In this paper, we propose Unified Locomotion Transformer (ULT), a new transformer-based framework to unify the processes of knowledge transfer and policy optimization in a single network while still taking advantage of privilege information. The policies are optimized with reinforcement learning, next state-action prediction, and action imitation, all in just one training stage, to achieve zero-shot deployment. Evaluation results demonstrate that with ULT, optimal teacher and student policies can be obtained at the same time, greatly easing the difficulty in knowledge transfer, even with complex transformer-based models.
arxiv情報
著者 | Dikai Liu,Tianwei Zhang,Jianxiong Yin,Simon See |
発行日 | 2025-03-12 02:15:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google