Data-driven inventory management for new products: A warm-start and adjusted Dyna-$Q$ approach

要約

この論文では、過去の需要情報がまったくない、または限られている新発売製品の在庫管理のための新しい強化学習アルゴリズムを提案します。
このアルゴリズムは古典的な Dyna-$Q$ 構造に従っており、モデルベースのアプローチとモデルフリーのアプローチのバランスをとりながら、Dyna-$Q$ のトレーニング プロセスを加速し、モデルベースのフィードバックによって生成されるモデルの不一致を軽減します。
既存の類似製品の需要データからのウォームスタート情報をアルゴリズムに組み込むことで、初期段階のトレーニングをさらに安定させ、推定された最適なポリシーのばらつきを減らすことができます。
私たちのアプローチは、実際のデータを使用したベーカリーの在庫管理のケーススタディを通じて検証されます。
調整された Dyna-$Q$ は、$Q$ 学習と比較して 1 日の平均コストが最大 23.7% 削減され、従来の Dyna-$Q$ と比較して同じ期間内のトレーニング時間が最大 77.5% 削減されました。
ウォームスタート情報を組み込むことにより、30 日間のテストで、調整済みの Dyna-$Q$ が総コストが最も低く、総コストの分散が最も低く、不足率が比較的低いことがわかります。

要約(オリジナル)

In this paper, we propose a novel reinforcement learning algorithm for inventory management of newly launched products with no or limited historical demand information. The algorithm follows the classic Dyna-$Q$ structure, balancing the model-based and model-free approaches, while accelerating the training process of Dyna-$Q$ and mitigating the model discrepancy generated by the model-based feedback. Warm-start information from the demand data of existing similar products can be incorporated into the algorithm to further stabilize the early-stage training and reduce the variance of the estimated optimal policy. Our approach is validated through a case study of bakery inventory management with real data. The adjusted Dyna-$Q$ shows up to a 23.7% reduction in average daily cost compared with $Q$-learning, and up to a 77.5% reduction in training time within the same horizon compared with classic Dyna-$Q$. By incorporating the warm-start information, it can be found that the adjusted Dyna-$Q$ has the lowest total cost, lowest variance in total cost, and relatively low shortage percentages among all the algorithms under a 30-day testing.

arxiv情報

著者 Xinye Qu,Longxiao Liu,Wenjie Huang
発行日 2025-01-15 02:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク