Revisiting Data Augmentation in Deep Reinforcement Learning

要約

最近、画像ベースの深層強化学習 (DRL) において、さまざまなデータ拡張技術が提案されています。
これらはサンプル効率や一般化を改善するためのデータ拡張の有効性を経験的に示していますが、どの技術を優先すべきかは必ずしも明らかではありません。
この問題に取り組むために、私たちは既存のメソッドを分析して、それらをより深く理解し、それらがどのように接続されているかを明らかにします。
特に、これらの方法の Q ターゲットの分散と経験的なアクター/クリティカル損失の分散を表現することにより、それらのさまざまなコンポーネントの効果を分析し、比較することができます。
さらに、ターゲット Q 値を計算する際にさまざまなデータ拡張変換を選択することによって、これらの方法がどのような影響を受けるかについての説明を定式化します。
この分析は、より原則的な方法でデータ拡張を活用する方法に関する推奨事項を提案します。
さらに、タンジェント プロップと呼ばれる正則化用語も含めます。これは、コンピューター ビジョンで以前に提案されましたが、DRL への適応は、私たちの知る限り新しいものです。
私たちは提案を評価し、いくつかの領域で分析を検証します。
関連するさまざまなベースラインと比較して、ほとんどの環境で最先端のパフォーマンスを達成し、一部の複雑な環境ではより高いサンプル効率とより優れた一般化能力を示すことを実証しました。

要約(オリジナル)

Various data augmentation techniques have been recently proposed in image-based deep reinforcement learning (DRL). Although they empirically demonstrate the effectiveness of data augmentation for improving sample efficiency or generalization, which technique should be preferred is not always clear. To tackle this question, we analyze existing methods to better understand them and to uncover how they are connected. Notably, by expressing the variance of the Q-targets and that of the empirical actor/critic losses of these methods, we can analyze the effects of their different components and compare them. We furthermore formulate an explanation about how these methods may be affected by choosing different data augmentation transformations in calculating the target Q-values. This analysis suggests recommendations on how to exploit data augmentation in a more principled way. In addition, we include a regularization term called tangent prop, previously proposed in computer vision, but whose adaptation to DRL is novel to the best of our knowledge. We evaluate our proposition and validate our analysis in several domains. Compared to different relevant baselines, we demonstrate that it achieves state-of-the-art performance in most environments and shows higher sample efficiency and better generalization ability in some complex environments.

arxiv情報

著者 Jianshu Hu,Yunpeng Jiang,Paul Weng
発行日 2024-02-19 14:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク