Constrained Reinforcement Learning for Dynamic Material Handling

要約

柔軟な製造システムの中核部分の 1 つであるマテリアル ハンドリングには、自動車両を使用したワークステーション間での材料の保管と輸送が含まれます。
マテリアルハンドリングの改善により、製造システム全体の効率が向上します。
ただし、タスク配置の最適化中に動的イベントが発生すると、適応性と有効性が必要となる課題が生じます。
この論文では、動的マテリアルハンドリングのための無人搬送車のスケジューリングを目的としています。
いくつかの現実世界のシナリオに動機付けられ、未知の新しいタスクや予期せぬ車両の故障は、問題における動的なイベントと見なされます。
この問題を、遅延と利用可能な車両をそれぞれ累積的制約と瞬間的制約として考慮する、制約付きマルコフ決定プロセスとして定式化します。
ラグランジュ緩和と無効アクション マスキングを組み合わせた適応制約付き強化学習アルゴリズム (RCPOM と呼ばれる) が、2 つのハイブリッド制約で問題に対処するために提案されています。
さらに、DMH-GYM という名前の体育館のような動的マテリアル ハンドリング シミュレーターが開発され、動的マテリアル ハンドリングのベンチマークとして使用できるさまざまな問題インスタンスが装備されています。
問題インスタンスに関する実験結果は、8 つの最先端の制約付きおよび制約なしの強化学習アルゴリズム、およびマテリアル ハンドリングに広く使用されているディスパッチング ルールと比較して、私たちが提案するアプローチの優れたパフォーマンスを示しています。

要約(オリジナル)

As one of the core parts of flexible manufacturing systems, material handling involves storage and transportation of materials between workstations with automated vehicles. The improvement in material handling can impulse the overall efficiency of the manufacturing system. However, the occurrence of dynamic events during the optimisation of task arrangements poses a challenge that requires adaptability and effectiveness. In this paper, we aim at the scheduling of automated guided vehicles for dynamic material handling. Motivated by some real-world scenarios, unknown new tasks and unexpected vehicle breakdowns are regarded as dynamic events in our problem. We formulate the problem as a constrained Markov decision process which takes into account tardiness and available vehicles as cumulative and instantaneous constraints, respectively. An adaptive constrained reinforcement learning algorithm that combines Lagrangian relaxation and invalid action masking, named RCPOM, is proposed to address the problem with two hybrid constraints. Moreover, a gym-like dynamic material handling simulator, named DMH-GYM, is developed and equipped with diverse problem instances, which can be used as benchmarks for dynamic material handling. Experimental results on the problem instances demonstrate the outstanding performance of our proposed approach compared with eight state-of-the-art constrained and non-constrained reinforcement learning algorithms, and widely used dispatching rules for material handling.

arxiv情報

著者 Chengpeng Hu,Ziming Wang,Jialin Liu,Junyi Wen,Bifei Mao,Xin Yao
発行日 2023-05-23 08:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク