Stabilizing Extreme Q-learning by Maclaurin Expansion

要約

オフライン強化学習では、データセットから分布外の行動を評価することによる性能劣化を防ぐために、サンプル内学習法が広く用いられている。Extreme Q-learning(XQL)は、ベルマン誤差がガンベル分布に従うという仮定に基づく損失関数を採用しており、ソフト最適値関数をサンプル内学習でモデル化することができる。XQLは、オフラインおよびオンラインの強化学習において高い性能を発揮している。しかし、損失関数の指数項に起因する不安定性や、誤差分布がガンベル分布から逸脱するリスクなどの問題が残っている。そこで我々は、安定性を向上させるためにMaclaurin Expanded Extreme Q-learningを提案する。この手法では、XQLの損失関数にマクローリン展開を適用することで、大きな誤差に対する安定性を高める。この手法では、モデル化された価値関数を行動政策下の価値関数とソフト最適価値関数との間で調整することで、拡張の次数に応じて安定性と最適性のトレードオフを実現する。また、誤差分布の仮定を正規分布からガンベル分布に調整することも可能である。本手法は、従来XQLが不安定であったDM制御からのオンラインRLタスクにおける学習を大幅に安定化させる。さらに、D4RLのいくつかのオフラインRLタスクの性能も向上させた。

要約(オリジナル)

In offline reinforcement learning, in-sample learning methods have been widely used to prevent performance degradation caused by evaluating out-of-distribution actions from the dataset. Extreme Q-learning (XQL) employs a loss function based on the assumption that Bellman error follows a Gumbel distribution, enabling it to model the soft optimal value function in an in-sample manner. It has demonstrated strong performance in both offline and online reinforcement learning settings. However, issues remain, such as the instability caused by the exponential term in the loss function and the risk of the error distribution deviating from the Gumbel distribution. Therefore, we propose Maclaurin Expanded Extreme Q-learning to enhance stability. In this method, applying Maclaurin expansion to the loss function in XQL enhances stability against large errors. This approach involves adjusting the modeled value function between the value function under the behavior policy and the soft optimal value function, thus achieving a trade-off between stability and optimality depending on the order of expansion. It also enables adjustment of the error distribution assumption from a normal distribution to a Gumbel distribution. Our method significantly stabilizes learning in online RL tasks from DM Control, where XQL was previously unstable. Additionally, it improves performance in several offline RL tasks from D4RL.

arxiv情報

著者 Motoki Omura,Takayuki Osa,Yusuke Mukuta,Tatsuya Harada
発行日 2024-09-02 13:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク