要約
強化学習 (RL) の応用範囲を広げるには、安全性が不可欠です。
多くの場合、RL エージェントを現実世界に展開する前に、研究室などの制御された環境でトレーニングします。
ただし、実際のターゲット タスクは、展開前には不明な場合があります。
報酬なしの RL は、報酬なしでエージェントを訓練し、報酬が明らかになったらすぐに適応できるようにします。
私たちは、エージェント (ガイド) が報酬信号なしで安全に探索する方法を学習する、制約付き報酬なし設定を考慮します。
このエージェントは制御された環境で訓練されているため、危険な相互作用が許容されながらも安全信号が提供されます。
対象タスクが明らかになった後は、安全違反は許可されなくなります。
したがって、このガイドは安全な行動ポリシーを作成するために活用されます。
転移学習を利用して、生徒が信頼できない間はガイドに対するターゲット ポリシー (生徒) を正規化し、トレーニングが進むにつれてガイドの影響を徐々に排除します。
実証分析により、この方法は安全な転移学習を実現でき、学生が目標タスクをより速く解決できることが示されています。
要約(オリジナル)
Safety is critical to broadening the application of reinforcement learning (RL). Often, we train RL agents in a controlled environment, such as a laboratory, before deploying them in the real world. However, the real-world target task might be unknown prior to deployment. Reward-free RL trains an agent without the reward to adapt quickly once the reward is revealed. We consider the constrained reward-free setting, where an agent (the guide) learns to explore safely without the reward signal. This agent is trained in a controlled environment, which allows unsafe interactions and still provides the safety signal. After the target task is revealed, safety violations are not allowed anymore. Thus, the guide is leveraged to compose a safe behaviour policy. Drawing from transfer learning, we also regularize a target policy (the student) towards the guide while the student is unreliable and gradually eliminate the influence of the guide as training progresses. The empirical analysis shows that this method can achieve safe transfer learning and helps the student solve the target task faster.
arxiv情報
著者 | Qisong Yang,Thiago D. Simão,Nils Jansen,Simon H. Tindemans,Matthijs T. J. Spaan |
発行日 | 2023-07-26 17:26:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google