要約
リソースの割り当ては、サイクル時間を最小限に抑え、ビジネスプロセスの効率を改善する上で重要な役割を果たします。
最近、Deep Renection Learning(DRL)は、ビジネスプロセスにおけるリソース割り当てポリシーを最適化するための強力なツールとして登場しました。
DRLフレームワークでは、エージェントは、環境との相互作用を通じてポリシーを学習します。これは、その決定の質を示す報酬信号のみによって導かれます。
ただし、既存のアルゴリズムは、ビジネスプロセスなどの動的環境には適していません。
さらに、既存のDRLベースの方法は、望ましい目的を近似する設計された報酬関数に依存していますが、報酬と目的の間の不整合は、望ましくない決定または最適ではないポリシーにつながる可能性があります。
これらの問題に対処するために、ロールアウトベースのDRLアルゴリズムと、目標を直接最適化する報酬関数を提案します。
アルゴリズムは、異なるアクションに従って実行軌跡を評価することにより、ポリシーを繰り返し改善します。
報酬関数は、平均サイクル時間を最小化するという目的関数を直接分解します。
報酬関数を最大化すると、広範な報酬エンジニアリングを必要とせずに目的関数が最小化されることが保証されます。
結果は、私たちの方法が、評価された6つのビジネスプロセスすべてで最適なポリシーを一貫して学習し、評価された2つのプロセスで最適なポリシーのみを学習できる最先端のアルゴリズムを上回ることを示しています。
要約(オリジナル)
Resource allocation plays a critical role in minimizing cycle time and improving the efficiency of business processes. Recently, Deep Reinforcement Learning (DRL) has emerged as a powerful tool to optimize resource allocation policies in business processes. In the DRL framework, an agent learns a policy through interaction with the environment, guided solely by reward signals that indicate the quality of its decisions. However, existing algorithms are not suitable for dynamic environments such as business processes. Furthermore, existing DRL-based methods rely on engineered reward functions that approximate the desired objective, but a misalignment between reward and objective can lead to undesired decisions or suboptimal policies. To address these issues, we propose a rollout-based DRL algorithm and a reward function to optimize the objective directly. Our algorithm iteratively improves the policy by evaluating execution trajectories following different actions. Our reward function directly decomposes the objective function of minimizing the mean cycle time. Maximizing our reward function guarantees that the objective function is minimized without requiring extensive reward engineering. The results show that our method consistently learns the optimal policy in all six evaluated business processes, outperforming the state-of-the-art algorithm that can only learn the optimal policy in two of the evaluated processes.
arxiv情報
著者 | Jeroen Middelhuis,Zaharah Bukhsh,Ivo Adan,Remco Dijkman |
発行日 | 2025-04-15 14:46:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google