要約
最大エンゴロピー強化学習を通じて学習したポリシーの一般化と堅牢性の特性は、観察可能なガウスノイズを伴う混oticとした動的システムで調査されます。
第一に、エントロピーの正則化政策のエージェントの観察の騒音汚染下での堅牢性が観察されます。
第二に、学習モデルの複雑さ測定などの統計学習理論の概念は、現象を説明および予測するために借りられます。
結果は、選択された複雑さの測定によって説明できるエントロピーの正規化されたポリシーの最適化とノイズに対する堅牢性との関係の存在を示しています。
要約(オリジナル)
The generalisation and robustness properties of policies learnt through Maximum-Entropy Reinforcement Learning are investigated on chaotic dynamical systems with Gaussian noise on the observable. First, the robustness under noise contamination of the agent’s observation of entropy regularised policies is observed. Second, notions of statistical learning theory, such as complexity measures on the learnt model, are borrowed to explain and predict the phenomenon. Results show the existence of a relationship between entropy-regularised policy optimisation and robustness to noise, which can be described by the chosen complexity measures.
arxiv情報
著者 | Rémy Hosseinkhan Boucher,Onofrio Semeraro,Lionel Mathelin |
発行日 | 2025-01-28 18:04:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google