要約
計算能力と AI の進歩により、在庫管理に対する強化学習アプローチへの関心が高まっています。
この論文は、これらのアプローチの理論的基礎を提供し、数十年にわたる在庫理論によって十分に確立された政策構造に限定する利点を調査します。
特に、著名なヴァプニク・チェルボネンキス (VC) 理論を活用して、基本在庫ポリシーや (s, S) ポリシーなど、いくつかのよく知られたクラスの在庫ポリシーを学習するための一般化保証を証明します。
VC 理論の疑似次元と脂肪粉砕次元の概念を適用して、インベントリ ポリシーの一般化可能性、つまり、トレーニング データに対するインベントリ ポリシーのパフォーマンスと、目に見えないデータに対する期待されるパフォーマンスの差を決定します。
コンテキストのない古典的な設定に焦点を当てますが、需要シーケンス全体にわたる任意の分布を許容し、時間の経過に伴う独立性などの仮定は行いません。
数値シミュレーションを使用して、教師あり学習の結果を裏付けます。
管理上、私たちの理論とシミュレーションは次のような洞察につながります。
まず、在庫管理には「学んだことは少ないほど良い」という原則があります。利用可能なデータの量によっては、過剰適合エラーを最小限に抑えるために、最適ではないとしても、より単純なクラスの在庫ポリシーに限定することが有益な場合があります。
第 2 に、ポリシー クラス内のパラメータの数は、過学習誤差の正しい尺度ではない可能性があります。実際、T 個の時変ベースストック レベルによって定義されるポリシーのクラスは、2 つのパラメータ (
s、S) ポリシー クラス。
最後に、私たちの研究は、ブラックボックス学習マシンに注文数量アクションを直接学習させる代わりに、基本在庫と在庫位置の概念をブラックボックス学習マシンに組み込むことが有益である可能性がある状況を示唆しています。
要約(オリジナル)
Advances in computational power and AI have increased interest in reinforcement learning approaches to inventory management. This paper provides a theoretical foundation for these approaches and investigates the benefits of restricting to policy structures that are well-established by decades of inventory theory. In particular, we prove generalization guarantees for learning several well-known classes of inventory policies, including base-stock and (s, S) policies, by leveraging the celebrated Vapnik-Chervonenkis (VC) theory. We apply the concepts of the Pseudo-dimension and Fat-shattering dimension from VC theory to determine the generalizability of inventory policies, that is, the difference between an inventory policy’s performance on training data and its expected performance on unseen data. We focus on a classical setting without contexts, but allow for an arbitrary distribution over demand sequences and do not make any assumptions such as independence over time. We corroborate our supervised learning results using numerical simulations. Managerially, our theory and simulations translate to the following insights. First, there is a principle of ‘learning less is more’ in inventory management: depending on the amount of data available, it may be beneficial to restrict oneself to a simpler, albeit suboptimal, class of inventory policies to minimize overfitting errors. Second, the number of parameters in a policy class may not be the correct measure of overfitting error: in fact, the class of policies defined by T time-varying base-stock levels exhibits a generalization error comparable to that of the two-parameter (s, S) policy class. Finally, our research suggests situations in which it could be beneficial to incorporate the concepts of base-stock and inventory position into black-box learning machines, instead of having these machines directly learn the order quantity actions.
arxiv情報
著者 | Yaqi Xie,Will Ma,Linwei Xin |
発行日 | 2024-04-17 16:05:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google