Self-Labeling the Job Shop Scheduling Problem

要約

この研究では、組み合わせ問題向けに特別に設計された自己教師ありトレーニング戦略を提案します。
このような問題に教師ありパラダイムを適用する際の主な障害の 1 つは、多くの場合、高価な正確なソルバーで生成される、グラウンドトゥルースとしての高価なターゲット ソリューションの要件です。
半教師あり学習と自己教師あり学習にヒントを得て、複数の解をサンプリングし、問題の目的に応じて最適なものを疑似ラベルとして使用することで、生成モデルを簡単にトレーニングできることを示します。
このようにして、自己監視のみに依存してモデル生成機能を繰り返し改善し、最適性情報の必要性を完全に排除します。
私たちは、強化学習コミュニティから多くの注目を集めている複雑な組み合わせ問題であるジョブ ショップ スケジューリング (JSP) に対するこの自己ラベル付け戦略の有効性を証明します。
私たちは、よく知られているポインター ネットワークに基づいた生成モデルを提案し、戦略に従ってそれをトレーニングします。
2 つの人気のあるベンチマークでの実験では、結果として得られるモデルが建設的ヒューリスティックや現在の最先端の強化学習提案を上回るパフォーマンスを示すため、このアプローチの可能性が実証されています。

要約(オリジナル)

In this work, we propose a Self-Supervised training strategy specifically designed for combinatorial problems. One of the main obstacles in applying supervised paradigms to such problems is the requirement of expensive target solutions as ground-truth, often produced with costly exact solvers. Inspired by Semi- and Self-Supervised learning, we show that it is possible to easily train generative models by sampling multiple solutions and using the best one according to the problem objective as a pseudo-label. In this way, we iteratively improve the model generation capability by relying only on its self-supervision, completely removing the need for optimality information. We prove the effectiveness of this Self-Labeling strategy on the Job Shop Scheduling (JSP), a complex combinatorial problem that is receiving much attention from the Reinforcement Learning community. We propose a generative model based on the well-known Pointer Network and train it with our strategy. Experiments on two popular benchmarks demonstrate the potential of this approach as the resulting models outperform constructive heuristics and current state-of-the-art Reinforcement Learning proposals.

arxiv情報

著者 Andrea Corsini,Angelo Porrello,Simone Calderara,Mauro Dell’Amico
発行日 2024-01-22 11:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2, math.CO パーマリンク