要約
$Q$ 学習アルゴリズムは、データ効率が高いため、現実世界のアプリケーションにとって魅力的ですが、視覚的な観察からトレーニングすると、過剰適合やトレーニングの不安定性が非常に発生する傾向があります。
これまでの研究、つまり SVEA では、データ拡張を選択的に適用すると、トレーニングを不安定にすることなく RL エージェントの視覚的一般化を改善できることがわかりました。
データ拡張のレシピを再検討し、その有効性を測光的な性質の拡張に限定する仮定を見つけます。
これらの制限に対処して、私たちは、より幅広い種類の拡張で機能する一般化されたレシピ、SADA を提案します。
私たちは、DMC-GB2 (人気のある DMControl Generalization Benchmark の提案された拡張機能) および Meta-World および Distracting Control Suite のタスクでその有効性をベンチマークしました。その結果、私たちのメソッド SADA がトレーニングの安定性と一般化を大幅に向上させることがわかりました。
多様な拡張セットにわたる RL エージェント。
ビジュアライゼーション、コード、ベンチマーク: https://aalmuzairee.github.io/SADA/ を参照してください。
要約(オリジナル)
$Q$-learning algorithms are appealing for real-world applications due to their data-efficiency, but they are very prone to overfitting and training instabilities when trained from visual observations. Prior work, namely SVEA, finds that selective application of data augmentation can improve the visual generalization of RL agents without destabilizing training. We revisit its recipe for data augmentation, and find an assumption that limits its effectiveness to augmentations of a photometric nature. Addressing these limitations, we propose a generalized recipe, SADA, that works with wider varieties of augmentations. We benchmark its effectiveness on DMC-GB2 — our proposed extension of the popular DMControl Generalization Benchmark — as well as tasks from Meta-World and the Distracting Control Suite, and find that our method, SADA, greatly improves training stability and generalization of RL agents across a diverse set of augmentations. Visualizations, code, and benchmark: see https://aalmuzairee.github.io/SADA/
arxiv情報
著者 | Abdulaziz Almuzairee,Nicklas Hansen,Henrik I. Christensen |
発行日 | 2024-05-27 17:58:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google