Optimal Data Driven Resource Allocation under Multi-Armed Bandit Observations

要約

この論文では、側面制約の下でのマルチアームドバンディット (MAB) モデルに対する最初の漸近的最適戦略を紹介します。
サイド制約は、一定の割合で補充される特定のリソースの可用性によってバンディットのアクティブ化が制限される状況をモデル化します。
主な結果には、実行可能な一様に高速な政策の後悔に対する漸近的な下限の導出と、適切な条件下でこの下限を達成する政策の構築が含まれます。
さらに、未知の分布が未知の平均と既知の分散を持つ正規分布である場合、未知の平均と未知の分散を持つ正規分布の場合、および有限サポートを持つ任意の離散分布の場合に対して、そのようなポリシーの明示的な形式を提供します。

要約(オリジナル)

This paper introduces the first asymptotically optimal strategy for a multi armed bandit (MAB) model under side constraints. The side constraints model situations in which bandit activations are limited by the availability of certain resources that are replenished at a constant rate. The main result involves the derivation of an asymptotic lower bound for the regret of feasible uniformly fast policies and the construction of policies that achieve this lower bound, under pertinent conditions. Further, we provide the explicit form of such policies for the case in which the unknown distributions are Normal with unknown means and known variances, for the case of Normal distributions with unknown means and unknown variances and for the case of arbitrary discrete distributions with finite support.

arxiv情報

著者 Apostolos N. Burnetas,Odysseas Kanavetas,Michael N. Katehakis
発行日 2024-09-12 15:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク