Curriculum Learning in Job Shop Scheduling using Reinforcement Learning

要約

優先ディスパッチング ルールなどの固定戦略を使用してジョブ ショップ スケジューリング問題 (JSSP) を解決すると、いくつかの問題インスタンスでは満足のいく結果が得られる可能性がありますが、他の問題インスタンスでは不十分な結果が得られます。
この単一戦略の観点から、特定の JSSP に対するほぼ最適なソリューションを見つけることは、マシンのセットアップが同じであっても、難易度が異なります。
難易度の変動に対処するための最近集中的に研究され、有望な方法は深層強化学習 (DRL) です。これは、トレーニング中だけでなく、新しい状況に適用された場合でも、困難なインスタンスに応じてエージェントの計画戦略を動的に調整します。
この論文では、同じ問題サイズ内の難易度の変動を学習プロセスの設計に積極的に組み込むことにより、基礎となる手法として DLR をさらに改善します。
私たちのアプローチは、DRL とグラフ ニューラル ネットワークの埋め込みによって JSSP を解決する最先端の方法論に基づいています。
私たちの取り組みは、問題インスタンスの難易度の新しい指標によってトレーニング中に示された問題インスタンスをランク付けするカリキュラム学習戦略によって、エージェントのトレーニング ルーチンを補完します。
私たちの結果は、特定のカリキュラムが DRL ソリューションのパフォーマンスを大幅に向上させることを示しています。
これらのカリキュラムでトレーニングされたエージェントは、ランダムに分散されたトレーニング データでトレーニングされたエージェントの最高のパフォーマンスを上回り、平均メイクスパンが 3.2% 短縮されました。

要約(オリジナル)

Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a priority dispatching rule, may yield satisfactory results for several problem instances but, nevertheless, insufficient results for others. From this single-strategy perspective finding a near optimal solution to a specific JSSP varies in difficulty even if the machine setup remains the same. A recent intensively researched and promising method to deal with difficulty variability is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent’s planning strategy in response to difficult instances not only during training, but also when applied to new situations. In this paper, we further improve DLR as an underlying method by actively incorporating the variability of difficulty within the same problem size into the design of the learning process. We base our approach on a state-of-the-art methodology that solves JSSP by means of DRL and graph neural network embeddings. Our work supplements the training routine of the agent by a curriculum learning strategy that ranks the problem instances shown during training by a new metric of problem instance difficulty. Our results show that certain curricula lead to significantly better performances of the DRL solutions. Agents trained on these curricula beat the top performance of those trained on randomly distributed training data, reaching 3.2% shorter average makespans.

arxiv情報

著者 Constantin Waubert de Puiseau,Hasan Tercan,Tobias Meisen
発行日 2023-05-17 13:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク