Cooperative Multi-Agent Reinforcement Learning for Inventory Management

要約

タイトル:在庫管理のための協調マルチエージェント強化学習
要約:
– 強化学習(RL)を用いた在庫管理は研究の未開拓分野であり、アプローチはオフシェルフのRLアルゴリズムの小規模な修正から成る単純な、線形の環境に限定されている。
– この単純な環境を実世界のサプライチェーンにスケールアップすることは、環境の計算要件を最小限に抑え、実世界の店舗や倉庫のダイナミクスを表したエージェント構成を指定し、全体のサプライチェーンで望ましい行動を促進する報酬フレームワークの指定などの課題がある。
– 本研究では、1つの倉庫と複数の店舗から成るカスタムGPU-並列化環境と、強化学習エージェントと環境のダイナミクスを組み合わせたノベルアーキテクチャ、大手小売業者のサプライチェーンニーズを最適化する共有報酬仕様を有するシステムを提案する。
– サプライチェーングラフ内の各頂点は独自のエージェントであり、自己の在庫に基づいて上流の頂点に補充オーダーを出すことができる。倉庫エージェントは、サプライヤーからの注文だけでなく、下流の店舗への補充も制限する特別な特性を持っており、その結果、配分サブポリシーを学習する。
– 1製品の基本在庫ポリシーやその他のRLベースの仕様などの標準的な在庫管理ポリシーを上回るシステムを実現し、複数の製品の将来の研究方向を示している。

要約(オリジナル)

With Reinforcement Learning (RL) for inventory management (IM) being a nascent field of research, approaches tend to be limited to simple, linear environments with implementations that are minor modifications of off-the-shelf RL algorithms. Scaling these simplistic environments to a real-world supply chain comes with a few challenges such as: minimizing the computational requirements of the environment, specifying agent configurations that are representative of dynamics at real world stores and warehouses, and specifying a reward framework that encourages desirable behavior across the whole supply chain. In this work, we present a system with a custom GPU-parallelized environment that consists of one warehouse and multiple stores, a novel architecture for agent-environment dynamics incorporating enhanced state and action spaces, and a shared reward specification that seeks to optimize for a large retailer’s supply chain needs. Each vertex in the supply chain graph is an independent agent that, based on its own inventory, able to place replenishment orders to the vertex upstream. The warehouse agent, aside from placing orders from the supplier, has the special property of also being able to constrain replenishment to stores downstream, which results in it learning an additional allocation sub-policy. We achieve a system that outperforms standard inventory control policies such as a base-stock policy and other RL-based specifications for 1 product, and lay out a future direction of work for multiple products.

arxiv情報

著者 Madhav Khirwar,Karthik S. Gurumoorthy,Ankit Ajit Jain,Shantala Manchenahally
発行日 2023-04-18 06:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.MA パーマリンク