Learning payoffs while routing in skill-based queues

要約

サービス システム内のアプリケーションを動機として、適切なスキル セットを持つサーバーが各顧客を処理する必要があるキュー システムを検討します。
当社は、顧客とサーバーのマッチングによる総利益を最大化するために、サーバーへの顧客のルーティングを最適化することに重点を置いています。
さらに、顧客とサーバーに依存するペイオフパラメータは先験的に未知であると想定されます。
総利得を最大化しながら利得パラメータを適応的に学習する機械学習アルゴリズムを構築し、それが多対数リグレスを達成することを証明します。
さらに、リグレス下限を導出することで、アルゴリズムが対数項まで漸近的に最適であることを示します。
このアルゴリズムは、静的線形プログラムの基本的な実現可能な解をアクション空間として利用します。
リグレス分析は、キュー長プロセスの定常的な動作への収束を分析することにより、キューイングと学習の間の複雑な相互作用を克服します。
また、アルゴリズムのパフォーマンスを数値的に実証し、非静的環境におけるアルゴリズムの可能性を強調する時間変化パラメーターを使用した実験も含めました。

要約(オリジナル)

Motivated by applications in service systems, we consider queueing systems where each customer must be handled by a server with the right skill set. We focus on optimizing the routing of customers to servers in order to maximize the total payoff of customer–server matches. In addition, customer–server dependent payoff parameters are assumed to be unknown a priori. We construct a machine learning algorithm that adaptively learns the payoff parameters while maximizing the total payoff and prove that it achieves polylogarithmic regret. Moreover, we show that the algorithm is asymptotically optimal up to logarithmic terms by deriving a regret lower bound. The algorithm leverages the basic feasible solutions of a static linear program as the action space. The regret analysis overcomes the complex interplay between queueing and learning by analyzing the convergence of the queue length process to its stationary behavior. We also demonstrate the performance of the algorithm numerically, and have included an experiment with time-varying parameters highlighting the potential of the algorithm in non-static environments.

arxiv情報

著者 Sanne van Kempen,Jaron Sanders,Fiona Sloothaak,Maarten G. Wolf
発行日 2024-12-13 14:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60K25, 90C27, 93E35, cs.LG, math.PR パーマリンク