Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective

要約

強化学習 (RL) は最近、ロボット制御において目覚ましい成功を収めています。
ただし、RL のほとんどの作品は、特権的な知識 (力学、環境、地形など) がすぐに利用できるシミュレートされた環境で動作します。
逆に、現実世界のシナリオでは、ロボットエージェントは通常、アクションを選択するためにローカル状態(ロボット関節の固有受容フィードバックなど)のみに依存するため、シミュレーションと現実の大きなギャップが生じます。
既存の方法では、特権知識への依存を徐々に減らすか、2 段階のポリシー模倣を実行することで、このギャップに対処しています。
ただし、これらの方法では、利用可能な特権知識を十分に活用する能力が限られており、最適なパフォーマンスが得られないと主張します。
この論文では、シミュレーションと実際のギャップを情報ボトルネック問題として定式化し、履歴情報ボトルネック (HIB) と呼ばれる新しい特権知識蒸留方法を提案します。
特に、HIB は、基礎となる変更可能な動的情報をキャプチャすることによって、歴史的軌跡から特権的な知識表現を学習します。
理論分析によると、学習された特権知識表現は、オラクル ポリシーと学習されたポリシーの間の価値の不一致を軽減するのに役立ちます。
シミュレートされたタスクと現実世界のタスクの両方に関する実証実験により、HIB が以前の方法と比較して一般化可能性が向上することが実証されています。
実際の実験のビデオは https://sites.google.com/view/history-ib でご覧いただけます。

要約(オリジナル)

Reinforcement Learning (RL) has recently achieved remarkable success in robotic control. However, most works in RL operate in simulated environments where privileged knowledge (e.g., dynamics, surroundings, terrains) is readily available. Conversely, in real-world scenarios, robot agents usually rely solely on local states (e.g., proprioceptive feedback of robot joints) to select actions, leading to a significant sim-to-real gap. Existing methods address this gap by either gradually reducing the reliance on privileged knowledge or performing a two-stage policy imitation. However, we argue that these methods are limited in their ability to fully leverage the available privileged knowledge, resulting in suboptimal performance. In this paper, we formulate the sim-to-real gap as an information bottleneck problem and therefore propose a novel privileged knowledge distillation method called the Historical Information Bottleneck (HIB). In particular, HIB learns a privileged knowledge representation from historical trajectories by capturing the underlying changeable dynamic information. Theoretical analysis shows that the learned privileged knowledge representation helps reduce the value discrepancy between the oracle and learned policies. Empirical experiments on both simulated and real-world tasks demonstrate that HIB yields improved generalizability compared to previous methods. Videos of real-world experiments are available at https://sites.google.com/view/history-ib .

arxiv情報

著者 Haoran He,Peilin Wu,Chenjia Bai,Hang Lai,Lingxiao Wang,Ling Pan,Xiaolin Hu,Weinan Zhang
発行日 2024-10-14 09:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク