Learning to Schedule Online Tasks with Bandit Feedback

要約

オンライン タスク スケジューリングは、クラウド コンピューティングやクラウドソーシングにおけるタスク集中型アプリケーションにとって不可欠な役割を果たします。
最適なスケジューリングは、タスクの到着分布によっては、通常は報酬対コストの比率によって測定されるシステム パフォーマンスを向上させることができます。
一方で、報酬とコストはどちらもタスクのコンテキスト (評価指標など) に依存しており、実際にはブラックボックスのままです。
これらは報酬とコストをモデル化するのが難しいため、意思決定の前には不明です。
一方で、タスクの到着動作は予測できないシステム変動などの要因に敏感なため、事前の推定や到着分布の従来の仮定(ポアソンなど)が失敗する可能性があります。
これは、もう 1 つの実際的な課題であるにもかかわらず無視されがちな課題、つまり、不確実なタスクの到着分布を意味します。
さまざまな不確実性を伴う定常環境下での効果的なスケジューリングを目的として、二重楽観学習ベースの Robbins-Monro (DOL-RM) アルゴリズムを提案します。
具体的には、DOL-RM は、報酬対コスト比の楽観的な推定を組み込んだ学習モジュールと、ロビンス・モンロ法を利用して、スケジューリングの決定を行いながらタスクの到着分布を暗黙的に学習する決定モジュールを統合します。
理論的には、DOL-RM は収束ギャップと $O(T^{3/4})$ のサブリニアリグレスによるリグロングなし学習を達成します。これは、不確実なタスク到着分布と未知の報酬の下でのオンライン タスク スケジューリングの最初の結果です。
料金。
合成実験と実際のアプリケーションにおける数値結果は、他の最先端のベースラインと比較して最高の累積報酬対コスト比を達成する際の DOL-RM の有効性を示しています。

要約(オリジナル)

Online task scheduling serves an integral role for task-intensive applications in cloud computing and crowdsourcing. Optimal scheduling can enhance system performance, typically measured by the reward-to-cost ratio, under some task arrival distribution. On one hand, both reward and cost are dependent on task context (e.g., evaluation metric) and remain black-box in practice. These render reward and cost hard to model thus unknown before decision making. On the other hand, task arrival behaviors remain sensitive to factors like unpredictable system fluctuation whereby a prior estimation or the conventional assumption of arrival distribution (e.g., Poisson) may fail. This implies another practical yet often neglected challenge, i.e., uncertain task arrival distribution. Towards effective scheduling under a stationary environment with various uncertainties, we propose a double-optimistic learning based Robbins-Monro (DOL-RM) algorithm. Specifically, DOL-RM integrates a learning module that incorporates optimistic estimation for reward-to-cost ratio and a decision module that utilizes the Robbins-Monro method to implicitly learn task arrival distribution while making scheduling decisions. Theoretically, DOL-RM achieves convergence gap and no regret learning with a sub-linear regret of $O(T^{3/4})$, which is the first result for online task scheduling under uncertain task arrival distribution and unknown reward and cost. Our numerical results in a synthetic experiment and a real-world application demonstrate the effectiveness of DOL-RM in achieving the best cumulative reward-to-cost ratio compared with other state-of-the-art baselines.

arxiv情報

著者 Yongxin Xu,Shangshang Wang,Hengquan Guo,Xin Liu,Ziyu Shao
発行日 2024-02-26 10:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク