Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling

要約

スケジューリング問題のための学習型構築ヒューリスティックは、近年、確立されたソルバーやヒューリスティックとの競争が激化しています。
特に、深層強化学習 (DRL) を使用した解決アプローチで大幅な改善が観察されています。
最先端の結果を達成するために、ネットワーク アーキテクチャとトレーニング アルゴリズムの設計には多くの注意が払われてきましたが、推論中のトレーニング済み DRL エージェントの最適な使用について調査した研究はほとんどありません。
私たちの研究は、検索アルゴリズムと同様に、訓練された DRL エージェントの利用は許容可能な計算量に依存するべきであるという仮説に基づいています。
私たちは、$\delta$-sampling と呼ばれる、シンプルかつ効果的なパラメータ化を提案します。これは、トレーニングされたアクション ベクトルを操作して、ソリューション構築中にエージェントの動作を探索または活用に偏らせるものです。
このアプローチに従うことで、許容可能な数のソリューションを生成しながら、検索空間をより包括的にカバーすることができます。
さらに、このような所定の数のソリューションと任意の訓練されたエージェントに対して最適なパラメーター化を取得するためのアルゴリズムを提案します。
ジョブショップのスケジューリング問題に対する既存のトレーニング プロトコルを推論手法で拡張する実験により、仮説が検証され、生成されたソリューションに予想される改善がもたらされました。

要約(オリジナル)

Learned construction heuristics for scheduling problems have become increasingly competitive with established solvers and heuristics in recent years. In particular, significant improvements have been observed in solution approaches using deep reinforcement learning (DRL). While much attention has been paid to the design of network architectures and training algorithms to achieve state-of-the-art results, little research has investigated the optimal use of trained DRL agents during inference. Our work is based on the hypothesis that, similar to search algorithms, the utilization of trained DRL agents should be dependent on the acceptable computational budget. We propose a simple yet effective parameterization, called $\delta$-sampling that manipulates the trained action vector to bias agent behavior towards exploration or exploitation during solution construction. By following this approach, we can achieve a more comprehensive coverage of the search space while still generating an acceptable number of solutions. In addition, we propose an algorithm for obtaining the optimal parameterization for such a given number of solutions and any given trained agent. Experiments extending existing training protocols for job shop scheduling problems with our inference method validate our hypothesis and result in the expected improvements of the generated solutions.

arxiv情報

著者 Constantin Waubert de Puiseau,Christian Dörpelkus,Jannik Peters,Hasan Tercan,Tobias Meisen
発行日 2024-06-11 14:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク