Data-driven inventory management for new products: A warm-start and adjusted Dyna-$Q$ approach


このアルゴリズムは古典的な Dyna-$Q$ 構造に従っており、モデルベースのアプローチとモデルフリーのアプローチのバランスをとりながら、Dyna-$Q$ のトレーニング プロセスを加速し、モデルベースのフィードバックによって生成されるモデルの不一致を軽減します。
調整された Dyna-$Q$ は、$Q$ 学習と比較して 1 日の平均コストが最大 23.7% 削減され、従来の Dyna-$Q$ と比較して同じ期間内のトレーニング時間が最大 77.5% 削減されました。
ウォームスタート情報を組み込むことにより、30 日間のテストで、調整済みの Dyna-$Q$ が総コストが最も低く、総コストの分散が最も低く、不足率が比較的低いことがわかります。


In this paper, we propose a novel reinforcement learning algorithm for inventory management of newly launched products with no or limited historical demand information. The algorithm follows the classic Dyna-$Q$ structure, balancing the model-based and model-free approaches, while accelerating the training process of Dyna-$Q$ and mitigating the model discrepancy generated by the model-based feedback. Warm-start information from the demand data of existing similar products can be incorporated into the algorithm to further stabilize the early-stage training and reduce the variance of the estimated optimal policy. Our approach is validated through a case study of bakery inventory management with real data. The adjusted Dyna-$Q$ shows up to a 23.7% reduction in average daily cost compared with $Q$-learning, and up to a 77.5% reduction in training time within the same horizon compared with classic Dyna-$Q$. By incorporating the warm-start information, it can be found that the adjusted Dyna-$Q$ has the lowest total cost, lowest variance in total cost, and relatively low shortage percentages among all the algorithms under a 30-day testing.


著者 Xinye Qu,Longxiao Liu,Wenjie Huang
発行日 2025-01-15 02:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク