Privileged Knowledge Distillation for Sim-to-Real Policy Generalization

要約

強化学習 (RL) は最近、ロボット制御において目覚ましい成功を収めています。
ただし、ほとんどの RL 手法は、特権的な知識 (力学、環境、地形など) がすぐに利用できるシミュレートされた環境で動作します。
逆に、現実世界のシナリオでは、ロボットエージェントは通常、アクションを選択するためにローカル状態(ロボット関節の固有受容フィードバックなど)のみに依存するため、シミュレーションと現実の大きなギャップが生じます。
既存の方法では、特権知識への依存を徐々に減らすか、2 段階のポリシー模倣を実行することで、このギャップに対処しています。
ただし、これらの方法では特権知識を完全に活用する能力が限られており、最適なパフォーマンスが得られないと主張します。
この論文では、シミュレーションと実際のギャップを狭めるために、履歴情報ボトルネック (HIB) と呼ばれる新しい 1 段階の特権知識蒸留方法を提案します。
特に、HIB は、基礎となる変更可能な動的情報をキャプチャすることによって、歴史的軌跡から特権的な知識表現を学習します。
理論分析によると、学習された特権知識表現は、オラクル ポリシーと学習されたポリシーの間の価値の不一致を軽減するのに役立ちます。
シミュレートされたタスクと現実世界のタスクの両方に関する実証実験により、HIB が以前の方法と比較して一般化可能性が向上することが実証されています。

要約(オリジナル)

Reinforcement Learning (RL) has recently achieved remarkable success in robotic control. However, most RL methods operate in simulated environments where privileged knowledge (e.g., dynamics, surroundings, terrains) is readily available. Conversely, in real-world scenarios, robot agents usually rely solely on local states (e.g., proprioceptive feedback of robot joints) to select actions, leading to a significant sim-to-real gap. Existing methods address this gap by either gradually reducing the reliance on privileged knowledge or performing a two-stage policy imitation. However, we argue that these methods are limited in their ability to fully leverage the privileged knowledge, resulting in suboptimal performance. In this paper, we propose a novel single-stage privileged knowledge distillation method called the Historical Information Bottleneck (HIB) to narrow the sim-to-real gap. In particular, HIB learns a privileged knowledge representation from historical trajectories by capturing the underlying changeable dynamic information. Theoretical analysis shows that the learned privileged knowledge representation helps reduce the value discrepancy between the oracle and learned policies. Empirical experiments on both simulated and real-world tasks demonstrate that HIB yields improved generalizability compared to previous methods.

arxiv情報

著者 Haoran He,Chenjia Bai,Hang Lai,Lingxiao Wang,Weinan Zhang
発行日 2023-05-29 07:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク