要約
強化学習研究は、高次元の状態空間や行動空間における問題を解決するためのディープニューラルネットワークの活用によって大きな成功と注目を集めた。現在、深層強化学習方針は、医療アプリケーションから自動運転車まで、様々な分野で展開されているが、深層強化学習方針の汎化能力に関して、この分野が答えようとしている疑問はまだ残っている。本稿では、深層強化学習ポリシーのロバスト性と汎化能力を制限するオーバーフィッティング問題に遭遇する基本的な理由を概説する。さらに、汎化能力を向上させ、状態行動価値関数におけるオーバーフィッティングを克服するための多様な解決アプローチを定式化し、統一する。本研究は、現在の深層強化学習の進歩にコンパクトで体系的な統一的分析を提供し、汎化能力を向上させたロバストな深層ニューラルポリシーの構築に役立つと信じている。
要約(オリジナル)
Reinforcement learning research obtained significant success and attention with the utilization of deep neural networks to solve problems in high dimensional state or action spaces. While deep reinforcement learning policies are currently being deployed in many different fields from medical applications to self driving vehicles, there are still ongoing questions the field is trying to answer on the generalization capabilities of deep reinforcement learning policies. In this paper, we will outline the fundamental reasons why deep reinforcement learning policies encounter overfitting problems that limit their robustness and generalization capabilities. Furthermore, we will formalize and unify the diverse solution approaches to increase generalization, and overcome overfitting in state-action value functions. We believe our study can provide a compact systematic unified analysis for the current advancements in deep reinforcement learning, and help to construct robust deep neural policies with improved generalization abilities.
arxiv情報
著者 | Ezgi Korkmaz |
発行日 | 2024-01-04 16:45:01+00:00 |
arxivサイト | arxiv_id(pdf) |