要約
タイトル – 不完全なオンラインデモンストレーションを用いたガードされたポリシーオプティマイゼーション
要約 – 教師エージェントが介入してオンラインデモンストレーションを提供することにより、強化学習の環境であるTeacher-Student Framework(TSF)が作成されます。最適な場合、教師ポリシーは、学生エージェントの学習プロセスに介入するための完璧なタイミングと能力を持っており、安全性保証と探索ガイダンスを提供します。しかし、現実の多くの状況では、よく機能する教師ポリシーを取得することは高価であったり、不可能であったりします。本研究では、よく機能する教師の仮定を緩和し、控えめまたは劣った性能の任意の教師ポリシーを組み込むことができる新しい方法を開発します。Teacher-Student Shared Control(TS2C)と呼ばれるオフポリシー強化学習アルゴリズムをインスタンス化し、トラジェクトリベースの価値推定に基づく教師の介入を組み込みます。理論的な分析は、提案されたTS2Cアルゴリズムが、教師自身の性能に影響を受けることなく、効率的な探索と大幅な安全性保証を達成することを確認しています。様々な連続制御タスクの実験から、TS2Cは低いトレーニングコストを維持しながら、異なるパフォーマンスレベルの教師ポリシーを利用できることが示されました。さらに、学生ポリシーは、保持されたテスト環境で高い累積報酬を持つ不完全な教師ポリシーを超えました。コードは https://metadriverse.github.io/TS2C で公開されています。
– TSFは、教師エージェントによるオンラインデモンストレーションを介して、学生エージェントの訓練を監視する強化学習環境です。
– 学生エージェントの学習プロセスに介入するよく機能する教師ポリシーを取得することは高価であり、不可能であるため、本研究では、よく機能しない教師ポリシーを組み込む新しい方法を提案します。
– 提案された方法は、トラジェクトリベースの値の推定に基づく教師の介入を組み込んだオフポリシー強化学習アルゴリズムであり、効果的な探索と安全性保証を達成することが理論的に保証されています。
– 複数の連続制御タスクの実験により、提案手法は、異なる性能レベルの教師ポリシーを利用しながら、低いトレーニングコストを維持し、高い累積報酬を持つ学生ポリシーを得ることが示されました。
– コードは https://metadriverse.github.io/TS2C で公開されています。
要約(オリジナル)
The Teacher-Student Framework (TSF) is a reinforcement learning setting where a teacher agent guards the training of a student agent by intervening and providing online demonstrations. Assuming optimal, the teacher policy has the perfect timing and capability to intervene in the learning process of the student agent, providing safety guarantee and exploration guidance. Nevertheless, in many real-world settings it is expensive or even impossible to obtain a well-performing teacher policy. In this work, we relax the assumption of a well-performing teacher and develop a new method that can incorporate arbitrary teacher policies with modest or inferior performance. We instantiate an Off-Policy Reinforcement Learning algorithm, termed Teacher-Student Shared Control (TS2C), which incorporates teacher intervention based on trajectory-based value estimation. Theoretical analysis validates that the proposed TS2C algorithm attains efficient exploration and substantial safety guarantee without being affected by the teacher’s own performance. Experiments on various continuous control tasks show that our method can exploit teacher policies at different performance levels while maintaining a low training cost. Moreover, the student policy surpasses the imperfect teacher policy in terms of higher accumulated reward in held-out testing environments. Code is available at https://metadriverse.github.io/TS2C.
arxiv情報
著者 | Zhenghai Xue,Zhenghao Peng,Quanyi Li,Zhihan Liu,Bolei Zhou |
発行日 | 2023-04-24 03:28:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI