Self-Labeling the Job Shop Scheduling Problem


このような問題に教師ありパラダイムを適用する際の主な障害の 1 つは、多くの場合、高価な正確なソルバーで生成される、グラウンドトゥルースとしての高価なターゲット ソリューションの要件です。
私たちは、強化学習コミュニティから多くの注目を集めている複雑な組み合わせ問題であるジョブ ショップ スケジューリング (JSP) に対するこの自己ラベル付け戦略の有効性を証明します。
私たちは、よく知られているポインター ネットワークに基づいた生成モデルを提案し、戦略に従ってそれをトレーニングします。
2 つの人気のあるベンチマークでの実験では、結果として得られるモデルが建設的ヒューリスティックや現在の最先端の強化学習提案を上回るパフォーマンスを示すため、このアプローチの可能性が実証されています。


In this work, we propose a Self-Supervised training strategy specifically designed for combinatorial problems. One of the main obstacles in applying supervised paradigms to such problems is the requirement of expensive target solutions as ground-truth, often produced with costly exact solvers. Inspired by Semi- and Self-Supervised learning, we show that it is possible to easily train generative models by sampling multiple solutions and using the best one according to the problem objective as a pseudo-label. In this way, we iteratively improve the model generation capability by relying only on its self-supervision, completely removing the need for optimality information. We prove the effectiveness of this Self-Labeling strategy on the Job Shop Scheduling (JSP), a complex combinatorial problem that is receiving much attention from the Reinforcement Learning community. We propose a generative model based on the well-known Pointer Network and train it with our strategy. Experiments on two popular benchmarks demonstrate the potential of this approach as the resulting models outperform constructive heuristics and current state-of-the-art Reinforcement Learning proposals.


著者 Andrea Corsini,Angelo Porrello,Simone Calderara,Mauro Dell’Amico
発行日 2024-01-22 11:08:36+00:00
