Achieving Stable Training of Reinforcement Learning Agents in Bimodal Environments through Batch Learning

要約

二峰性の確率的環境は、典型的な強化学習の問題に課題をもたらします。
この問題は現実世界のアプリケーションで驚くほど一般的な問題であり、特に価格設定の問題に当てはまります。
この論文では、バッチ更新を使用してこれらの特定の課題に取り組むために調整された、表形式の Q 学習アルゴリズムに対する新しい学習アプローチを紹介します。
価格設定の問題のシミュレーションは、通常更新されるエージェントとバッチ学習エージェントを比較するためのテストベッドとして使用されます。
バッチ学習エージェントは、通常のトレーニングを受けたエージェントよりも効果的であり、大規模な確率的環境の変動に対する耐性が高いことが示されています。
この取り組みは、価格設定などの観点から強化学習の実用的な産業展開を可能にする大きな可能性を秘めています。

要約(オリジナル)

Bimodal, stochastic environments present a challenge to typical Reinforcement Learning problems. This problem is one that is surprisingly common in real world applications, being particularly applicable to pricing problems. In this paper we present a novel learning approach to the tabular Q-learning algorithm, tailored to tackling these specific challenges by using batch updates. A simulation of pricing problem is used as a testbed to compare a typically updated agent with a batch learning agent. The batch learning agents are shown to be both more effective than the typically-trained agents, and to be more resilient to the fluctuations in a large stochastic environment. This work has a significant potential to enable practical, industrial deployment of Reinforcement Learning in the context of pricing and others.

arxiv情報

著者 E. Hurwitz,N. Peace,G. Cevora
発行日 2023-07-03 10:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク