要約
動的タスクの割り当て問題(DTAP)は、リソースをリアルタイムでタスクに一致させることに関係し、リソースコストやタスクサイクル時間などの目標を最小限に抑えます。
この作業では、すべてのタスクが一連の確率的シーケンスで構成されるケースであるDTAPバリアントを検討します。
この場合、DTAPには、可能な限り迅速にリクエストを処理するアクティビティを割り当てる従業員の決定が含まれます。
近年、Deep Renection Learning(DRL)は、このDTAPバリアントに取り組むための有望なツールとして浮上していますが、ほとんどの研究は、小規模で合成問題の解決に限定されており、実際のユースケースによってもたらされる課題を無視しています。
このギャップを埋めるために、この作業は、実際のスケールDTAPのためのDRLベースの意思決定支援システム(DSS)を提案しています。
この目的のために、2つの新しい要素を持つDRLエージェントを導入します。観測とアクションのグラフ構造と、任意のDTAPを効果的に表すことができるアクションと、タスクの平均サイクル時間を最小化する目的と同等の報酬関数です。
これらの2つのノベルティの組み合わせにより、エージェントは実際のスケールDTAPの効果的で一般化可能な割り当てポリシーを学習できます。
提案されているDSSは、プロセスマイニングを通じて実世界のログからパラメーターが抽出される5つのDTAPインスタンスで評価されます。
実験的評価は、提案されているDRLエージェントがすべてのDTAPインスタンスで最高のベースラインと一致または上回る方法を示しており、さまざまな時間視野とインスタンス全体で一般化します。
要約(オリジナル)
The Dynamic Task Assignment Problem (DTAP) concerns matching resources to tasks in real time while minimizing some objectives, like resource costs or task cycle time. In this work, we consider a DTAP variant where every task is a case composed of a stochastic sequence of activities. The DTAP, in this case, involves the decision of which employee to assign to which activity to process requests as quickly as possible. In recent years, Deep Reinforcement Learning (DRL) has emerged as a promising tool for tackling this DTAP variant, but most research is limited to solving small-scale, synthetic problems, neglecting the challenges posed by real-world use cases. To bridge this gap, this work proposes a DRL-based Decision Support System (DSS) for real-world scale DTAPS. To this end, we introduce a DRL agent with two novel elements: a graph structure for observations and actions that can effectively represent any DTAP and a reward function that is provably equivalent to the objective of minimizing the average cycle time of tasks. The combination of these two novelties allows the agent to learn effective and generalizable assignment policies for real-world scale DTAPs. The proposed DSS is evaluated on five DTAP instances whose parameters are extracted from real-world logs through process mining. The experimental evaluation shows how the proposed DRL agent matches or outperforms the best baseline in all DTAP instances and generalizes on different time horizons and across instances.
arxiv情報
著者 | Riccardo Lo Bianco,Willem van Jaarsveld,Jeroen Middelhuis,Luca Begnardi,Remco Dijkman |
発行日 | 2025-04-28 16:08:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google