Efficient Scheduling of Data Augmentation for Deep Reinforcement Learning

要約

深層強化学習 (RL) では、データ拡張は、セマンティックの一貫性に関する一連の有用な事前確率を誘導し、サンプルの効率と一般化のパフォーマンスを向上させるツールとして広く考えられています。
ただし、事前確率が一般化に役立つ場合でも、それを RL エージェントに抽出すると、多くの場合、RL トレーニングが妨げられ、サンプル効率が低下します。
一方、RL の非定常性により、エージェントは事前確率を忘れます。
これらの観察結果は、蒸留の 2 つの極端なスケジュールを示唆しています。(i) トレーニング全体にわたって。
または(ii)最後にのみ。
したがって、任意の時点で (RL の後でも) 事前に一貫性を注入するためのスタンドアロンのネットワーク蒸留法と、蒸留を自動的にスケジュールするためのシンプルかつ効率的なフレームワークを考案します。
具体的には、提案されたフレームワークは、トレーニングに使用する {\it or no} 拡張を適応的に決定することにより、一般化に関係なく、最初にトレーニング環境をマスターすることに焦点を当てています。
この後、蒸留を追加して、すべての拡張から一般化するための残りの利点を抽出します。これには、追加の新しいサンプルは必要ありません。
私たちの実験では、提案されたフレームワークの有用性を示しています。特に、拡張を RL トレーニングの最後まで延期することを考慮しています。

要約(オリジナル)

In deep reinforcement learning (RL), data augmentation is widely considered as a tool to induce a set of useful priors about semantic consistency and improve sample efficiency and generalization performance. However, even when the prior is useful for generalization, distilling it to RL agent often interferes with RL training and degenerates sample efficiency. Meanwhile, the agent is forgetful of the prior due to the non-stationary nature of RL. These observations suggest two extreme schedules of distillation: (i) over the entire training; or (ii) only at the end. Hence, we devise a stand-alone network distillation method to inject the consistency prior at any time (even after RL), and a simple yet efficient framework to automatically schedule the distillation. Specifically, the proposed framework first focuses on mastering train environments regardless of generalization by adaptively deciding which {\it or no} augmentation to be used for the training. After this, we add the distillation to extract the remaining benefits for generalization from all the augmentations, which requires no additional new samples. In our experiments, we demonstrate the utility of the proposed framework, in particular, that considers postponing the augmentation to the end of RL training.

arxiv情報

著者 Byungchan Ko,Jungseul Ok
発行日 2023-03-01 06:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク