Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling

要約

Job Shop Scheduling 問題 (JSSP) は、複雑な組み合わせ最適化問題です。
オンライン強化学習 (RL) は、JSSP に受け入れられるソリューションを迅速に見つけることで有望性を示していますが、重要な制限に直面しています。つまり、ゼロからの広範なトレーニングインタラクションが必要であり、サンプルの非効率につながり、既存の高品質ソリューションを活用できず、多くの場合、JSSP に比べて次善の結果が得られます。
制約プログラミング (CP) などの従来の手法。
以前に生成されたソリューションから学習することでこれらの制限に対処する、派遣学習のためのオフライン強化学習 (Offline-LD) を紹介します。
私たちのアプローチは、過去のスケジューリングデータと専門家によるソリューションが利用可能なシナリオによって動機づけられていますが、現在の評価はベンチマーク問題に焦点を当てています。
Offline-LD は、マスカブルアクションスペースに 2 つの CQL ベースの Q 学習方法 (mQRDQN と離散 mSAC) を適応させ、離散 SAC に新しいエントロピーボーナス修正を導入し、前処理による報酬の正規化を活用します。
私たちの実験では、生成されたインスタンスとベンチマークインスタンスの両方で、オフライン LD がオンライン RL よりも優れたパフォーマンスを発揮することが実証されました。
特に、エキスパートデータセットにノイズを導入することで、エキスパートデータセットから得られる結果と同等かそれ以上の結果が得られます。これは、反事実の情報が含まれているため、より多様なトレーニングセットの方が望ましいことを示唆しています。

要約(オリジナル)

The Job Shop Scheduling Problem (JSSP) is a complex combinatorial optimization problem. While online Reinforcement Learning (RL) has shown promise by quickly finding acceptable solutions for JSSP, it faces key limitations: it requires extensive training interactions from scratch leading to sample inefficiency, cannot leverage existing high-quality solutions, and often yields suboptimal results compared to traditional methods like Constraint Programming (CP). We introduce Offline Reinforcement Learning for Learning to Dispatch (Offline-LD), which addresses these limitations by learning from previously generated solutions. Our approach is motivated by scenarios where historical scheduling data and expert solutions are available, although our current evaluation focuses on benchmark problems. Offline-LD adapts two CQL-based Q-learning methods (mQRDQN and discrete mSAC) for maskable action spaces, introduces a novel entropy bonus modification for discrete SAC, and exploits reward normalization through preprocessing. Our experiments demonstrate that Offline-LD outperforms online RL on both generated and benchmark instances. Notably, by introducing noise into the expert dataset, we achieve similar or better results than those obtained from the expert dataset, suggesting that a more diverse training set is preferable because it contains counterfactual information.

arxiv情報

著者	Jesse van Remmerden,Zaharah Bukhsh,Yingqian Zhang
発行日	2025-01-08 15:41:04+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー