Proximal Policy Distillation

要約

学生主導の蒸留と近位政策最適化(PPO)を統合してサンプル効率を高め、蒸留中に学生政策が収集する追加の報酬を活用する新しい政策蒸留法(PPD)を導入します。
当社の方法の有効性を評価するために、個別のアクションと継続的な制御(Atari、Mujoco、およびProcgen)を含む幅広い強化学習環境で、PPDを学生と教師の2つの代替案と比較します。
各環境と方法について、私たちは、より小さく、同一(自己抵抗)、または教師ネットワークよりも大きい一連のターゲット学生ニューラルネットワークに蒸留を実行します。
私たちの調査結果は、PPDがサンプルの効率を改善し、典型的な政策蒸留アプローチと比較してより良い学生ポリシーを生み出すことを示しています。
さらに、PPDは、ポリシーを不完全なデモンストレーションから蒸留する際に、代替方法よりも大きな堅牢性を示しています。
このペーパーのコードは、政策の蒸留を促進するために、安定したベースラインの上に構築された新しいPythonライブラリの一部としてリリースされます。「SB3-Distill」。

要約(オリジナル)

We introduce Proximal Policy Distillation (PPD), a novel policy distillation method that integrates student-driven distillation and Proximal Policy Optimization (PPO) to increase sample efficiency and to leverage the additional rewards that the student policy collects during distillation. To assess the efficacy of our method, we compare PPD with two common alternatives, student-distill and teacher-distill, over a wide range of reinforcement learning environments that include discrete actions and continuous control (ATARI, Mujoco, and Procgen). For each environment and method, we perform distillation to a set of target student neural networks that are smaller, identical (self-distillation), or larger than the teacher network. Our findings indicate that PPD improves sample efficiency and produces better student policies compared to typical policy distillation approaches. Moreover, PPD demonstrates greater robustness than alternative methods when distilling policies from imperfect demonstrations. The code for the paper is released as part of a new Python library built on top of stable-baselines3 to facilitate policy distillation: `sb3-distill’.

arxiv情報

著者 Giacomo Spigler
発行日 2025-06-06 13:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク