A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping

要約

生産リソースのスケジューリング (機械へのジョブの関連付けなど) は、エネルギーを節約するだけでなく、全体的な効率を高めるために、製造業にとって重要な役割を果たします。
さまざまなジョブ スケジューリングの問題の中で、JSSP がこの作業で扱われます。
JSSP は、網羅的探索による問題の解決が不可能になる NP-hard COP のカテゴリに分類されます。
FIFO、LPT などの単純なヒューリスティックと、タブー検索などのメタヒューリスティックを採用して、検索スペースを切り捨てることで問題を解決することがよくあります。
問題のサイズが大きい場合、最適な方法からかけ離れているか、時間がかかるため、これらの方法の実行可能性は非効率的になります。
近年、DRL を使用して COP を解決する研究が注目を集めており、ソリューションの品質と計算効率の面で有望な結果が示されています。
この作業では、DRL を使用して目的の一般化とソリューションの有効性を調べる JSSP を解決するための新しいアプローチを提供します。
特に、ジョブの制約付きディスパッチでうまく機能することがわかっているポリシー勾配パラダイムを採用する PPO アルゴリズムを採用しています。
OSM を環境に組み込み、問題のより一般的な学習を実現しました。
提示されたアプローチのパフォーマンスは、利用可能な一連のベンチマーク インスタンスを使用し、結果を他のグループの作業と比較することによって詳細に分析されます。

要約(オリジナル)

The scheduling of production resources (such as associating jobs to machines) plays a vital role for the manufacturing industry not only for saving energy but also for increasing the overall efficiency. Among the different job scheduling problems, the JSSP is addressed in this work. JSSP falls into the category of NP-hard COP, in which solving the problem through exhaustive search becomes unfeasible. Simple heuristics such as FIFO, LPT and metaheuristics such as Taboo search are often adopted to solve the problem by truncating the search space. The viability of the methods becomes inefficient for large problem sizes as it is either far from the optimum or time consuming. In recent years, the research towards using DRL to solve COP has gained interest and has shown promising results in terms of solution quality and computational efficiency. In this work, we provide an novel approach to solve the JSSP examining the objectives generalization and solution effectiveness using DRL. In particular, we employ the PPO algorithm that adopts the policy-gradient paradigm that is found to perform well in the constrained dispatching of jobs. We incorporated an OSM in the environment to achieve better generalized learning of the problem. The performance of the presented approach is analyzed in depth by using a set of available benchmark instances and comparing our results with the work of other groups.

arxiv情報

著者 Deepak Vivekanandan,Samuel Wirth,Patrick Karlbauer,Noah Klarmann
発行日 2023-02-27 16:45:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク