要約
この研究では、報酬とリソース消費がクラスター固有の線形モデルの結果であるクラスター化されたコンテキスト バンディットを研究します。
アームはクラスターに分割されますが、クラスターのメンバーシップはアルゴリズムには不明です。
一定期間内にアームを引くと、報酬が得られ、複数のリソースがそれぞれ消費されます。リソースの合計消費量が制約を超えると、アルゴリズムの終了が意味されます。
したがって、総報酬を最大化するには、報酬とリソース消費に関するモデルだけでなく、クラスターのメンバーシップも学習する必要があります。
すべてのアームへのアクセスを必要とせずに、期間の数においてリグレスをサブリニアに達成するアルゴリズムを提供します。
特に、ランダムに選択されたアームのサブセットに対してクラスタリングを 1 回だけ実行するだけで十分であることを示します。
この結果を達成するために、計量経済学の文献と制約を伴うバンディットの技術を高度に組み合わせて提供します。
要約(オリジナル)
In this work, we study clustered contextual bandits where rewards and resource consumption are the outcomes of cluster-specific linear models. The arms are divided in clusters, with the cluster memberships being unknown to an algorithm. Pulling an arm in a time period results in a reward and in consumption for each one of multiple resources, and with the total consumption of any resource exceeding a constraint implying the termination of the algorithm. Thus, maximizing the total reward requires learning not only models about the reward and the resource consumption, but also cluster memberships. We provide an algorithm that achieves regret sublinear in the number of time periods, without requiring access to all of the arms. In particular, we show that it suffices to perform clustering only once to a randomly selected subset of the arms. To achieve this result, we provide a sophisticated combination of techniques from the literature of econometrics and of bandits with constraints.
arxiv情報
著者 | Yichuan Deng,Michalis Mamakos,Zhao Song |
発行日 | 2023-08-21 13:47:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google