Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding

要約

混合シェルブピッカールーティングの問題(MSPRP)は、倉庫物流における基本的な課題であり、ピッカーはSKUを効率的に取得するために混合シェルブ環境をナビゲートする必要があります。
従来のヒューリスティックと最適化ベースのアプローチは、スケーラビリティと闘っていますが、最近の機械学習方法は多くの場合、順次意思決定に依存しており、ソリューションの潜在性が高く、最適ではないエージェントの調整につながります。
この作業では、マルチエージェント補強学習を介してMSPRPのMIN-MAXバリアントを解くための新しい階層的および並列デコードアプローチを提案します。
私たちのアプローチは、エージェントアクションよりも共同分布を生成し、高速デコードと効果的なピッカー調整を可能にしますが、この方法では、多次元アクション空間での競合を回避するための順次アクション選択を導入します。
実験では、特に大規模および分散式インスタンスの場合、ソリューションの品質と推論速度の両方で最先端のパフォーマンスが示されています。
私たちのコードは、http://github.com/ltluttmann/mar4msprpで公開されています。

要約(オリジナル)

The Mixed-Shelves Picker Routing Problem (MSPRP) is a fundamental challenge in warehouse logistics, where pickers must navigate a mixed-shelves environment to retrieve SKUs efficiently. Traditional heuristics and optimization-based approaches struggle with scalability, while recent machine learning methods often rely on sequential decision-making, leading to high solution latency and suboptimal agent coordination. In this work, we propose a novel hierarchical and parallel decoding approach for solving the min-max variant of the MSPRP via multi-agent reinforcement learning. While our approach generates a joint distribution over agent actions, allowing for fast decoding and effective picker coordination, our method introduces a sequential action selection to avoid conflicts in the multi-dimensional action space. Experiments show state-of-the-art performance in both solution quality and inference speed, particularly for large-scale and out-of-distribution instances. Our code is publicly available at http://github.com/LTluttmann/marl4msprp.

arxiv情報

著者 Laurin Luttmann,Lin Xie
発行日 2025-02-14 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, stat.ML パーマリンク