要約
Job Shop Scheduling 問題 (JSSP) は、複雑な組み合わせ最適化問題です。
オンライン強化学習 (RL) は、JSSP に受け入れられるソリューションを迅速に見つけることで有望性を示していますが、重要な制限に直面しています。つまり、ゼロからの広範なトレーニング インタラクションが必要であり、サンプルの非効率につながり、既存の高品質ソリューションを活用できず、多くの場合、JSSP に比べて次善の結果が得られます。
制約プログラミング (CP) などの従来の手法。
以前に生成されたソリューションから学習することでこれらの制限に対処する、派遣学習のためのオフライン強化学習 (Offline-LD) を紹介します。
私たちのアプローチは、過去のスケジューリング データと専門家によるソリューションが利用可能なシナリオによって動機づけられていますが、現在の評価はベンチマーク問題に焦点を当てています。
Offline-LD は、マスカブル アクション スペースに 2 つの CQL ベースの Q 学習方法 (mQRDQN と離散 mSAC) を適応させ、離散 SAC に新しいエントロピー ボーナス修正を導入し、前処理による報酬の正規化を活用します。
私たちの実験では、生成されたインスタンスとベンチマーク インスタンスの両方で、オフライン LD がオンライン RL よりも優れたパフォーマンスを発揮することが実証されました。
特に、エキスパート データセットにノイズを導入することで、エキスパート データセットから得られる結果と同等かそれ以上の結果が得られます。これは、反事実の情報が含まれているため、より多様なトレーニング セットの方が望ましいことを示唆しています。
要約(オリジナル)
The Job Shop Scheduling Problem (JSSP) is a complex combinatorial optimization problem. While online Reinforcement Learning (RL) has shown promise by quickly finding acceptable solutions for JSSP, it faces key limitations: it requires extensive training interactions from scratch leading to sample inefficiency, cannot leverage existing high-quality solutions, and often yields suboptimal results compared to traditional methods like Constraint Programming (CP). We introduce Offline Reinforcement Learning for Learning to Dispatch (Offline-LD), which addresses these limitations by learning from previously generated solutions. Our approach is motivated by scenarios where historical scheduling data and expert solutions are available, although our current evaluation focuses on benchmark problems. Offline-LD adapts two CQL-based Q-learning methods (mQRDQN and discrete mSAC) for maskable action spaces, introduces a novel entropy bonus modification for discrete SAC, and exploits reward normalization through preprocessing. Our experiments demonstrate that Offline-LD outperforms online RL on both generated and benchmark instances. Notably, by introducing noise into the expert dataset, we achieve similar or better results than those obtained from the expert dataset, suggesting that a more diverse training set is preferable because it contains counterfactual information.
arxiv情報
著者 | Jesse van Remmerden,Zaharah Bukhsh,Yingqian Zhang |
発行日 | 2025-01-08 15:41:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google