要約
最近の研究では、ディープニューラルネットワークが、連続的な状態空間と行動空間を特徴とする強化学習領域において、価値関数とポリシーの両方を近似できることが示されている。しかし、我々の知る限り、構造化された(パラメータ化された)連続行動空間においてディープニューラルネットワークを使用することに成功した先行研究はない。このギャップを埋めるために、本稿では、連続変数でパラメータ化された離散的なアクションタイプの小さなセットを特徴とする、シミュレーションされたロボカップサッカーのドメイン内での学習に焦点を当てる。最も優れた学習エージェントは、2012年ロボカップ優勝エージェントよりも確実にゴールを決めることができる。このように、本論文は、パラメータ化されたアクション空間MDPのクラスへの深層強化学習の拡張に成功したことを示す。
要約(オリジナル)
Recent work has shown that deep neural networks are capable of approximating both value functions and policies in reinforcement learning domains featuring continuous state and action spaces. However, to the best of our knowledge no previous work has succeeded at using deep neural networks in structured (parameterized) continuous action spaces. To fill this gap, this paper focuses on learning within the domain of simulated RoboCup soccer, which features a small set of discrete action types, each of which is parameterized with continuous variables. The best learned agent can score goals more reliably than the 2012 RoboCup champion agent. As such, this paper represents a successful extension of deep reinforcement learning to the class of parameterized action space MDPs.
arxiv情報
著者 | Matthew Hausknecht,Peter Stone |
発行日 | 2024-05-03 15:00:50+00:00 |
arxivサイト | arxiv_id(pdf) |