Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control

要約

強化学習 (RL) は、在庫管理 (IC) において優れた性能と汎用性を備えていることが証明されています。
しかし、IC ドメインにおける RL アルゴリズムのさらなる改善は、オンライン体験の 2 つの制限により妨げられています。
まず、オンライン エクスペリエンスを現実世界のアプリケーションで取得するには費用がかかります。
RL アルゴリズムはサンプル効率が低いという性質があるため、RL ポリシーをトレーニングして収束させるには膨大な時間がかかります。
第二に、IC に特有の販売損失現象により、オンライン体験は真の需要を反映していない可能性があり、学習プロセスがより困難になります。
上記の課題に対処するために、フィードバック グラフによる強化学習 (RLFG) と内発的動機づけによる探索 (IME) を組み合わせてサンプル効率を高める意思決定フレームワークを提案します。
具体的には、まず、IC の売れ残り問題の固有の特性を利用し、IC の売れ残り問題に特化したフィードバック グラフ (FG) を設計して、RL アップデートを支援する豊富なサイド エクスペリエンスを生成します。
次に、設計された FG が RL 法のサンプルの複雑さをどのように軽減するかについて、厳密な理論分析を実行します。
理論的な洞察に基づいて、RL エージェントがより多くのサイドエクスペリエンスで状態アクション空間を探索するように指示する固有の報酬を設計し、FG の力をさらに活用します。
実験結果は、私たちの方法がICでRLを適用するサンプル効率を大幅に向上させることを示しています。
私たちのコードは https://anonymous.4open.science/r/RLIMFG4IC-811D/ で入手できます。

要約(オリジナル)

Reinforcement learning (RL) has proven to be well-performed and general-purpose in the inventory control (IC). However, further improvement of RL algorithms in the IC domain is impeded due to two limitations of online experience. First, online experience is expensive to acquire in real-world applications. With the low sample efficiency nature of RL algorithms, it would take extensive time to train the RL policy to convergence. Second, online experience may not reflect the true demand due to the lost sales phenomenon typical in IC, which makes the learning process more challenging. To address the above challenges, we propose a decision framework that combines reinforcement learning with feedback graph (RLFG) and intrinsically motivated exploration (IME) to boost sample efficiency. In particular, we first take advantage of the inherent properties of lost-sales IC problems and design the feedback graph (FG) specially for lost-sales IC problems to generate abundant side experiences aid RL updates. Then we conduct a rigorous theoretical analysis of how the designed FG reduces the sample complexity of RL methods. Based on the theoretical insights, we design an intrinsic reward to direct the RL agent to explore to the state-action space with more side experiences, further exploiting FG’s power. Experimental results demonstrate that our method greatly improves the sample efficiency of applying RL in IC. Our code is available at https://anonymous.4open.science/r/RLIMFG4IC-811D/

arxiv情報

著者 Zifan Liu,Xinran Li,Shibo Chen,Gen Li,Jiashuo Jiang,Jun Zhang
発行日 2024-06-26 13:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク