Contextual Combinatorial Multi-output GP Bandits with Group Constraints

要約

連邦化された多武装バンディットの問題では、クライアントを保護するための最低限のプライバシー要件を満たしながら、グローバルな報酬を最大化することが主な目標です。
このような問題を定式化するために、グループとアクション セットを変更する組み合わせのコンテキスト バンディット設定を検討します。この場合、同様のベース アームがグループで到着し、スーパー アームの報酬を最大化するには、各ラウンドでスーパー アームと呼ばれるベース アームのセットを選択する必要があります。
基本武器が選択されたグループの報酬の制約を満たす。
柔軟性を高めるために、各ベース アームに 2 つの出力を持たせ、2 出力ガウス プロセス (GP) の出力としてモデル化します。1 つの結果はスーパー アームの報酬の計算に使用され、もう 1 つはグループの報酬の計算に使用されます。
次に、しきい値組み合わせガウス過程上限信頼限界 (TCGP-UCB) と呼ばれる新しいダブル UCB GP バンディット アルゴリズムを提案します。これは、累積スーパー アーム報酬の最大化とグループ報酬制約を満たすことのバランスをとり、一方を他方よりも優先するように調整できます。

また、スーパーアームの後悔とグループ報酬制約満足を組み合わせた新しい後悔の概念を定義し、TCGP-UCB が $\tilde{O}(\sqrt{\lambda^*(K)KT\overline{\gamma}_
{T}} )$ は高い確率で後悔します。ここで、$\overline{\gamma}_{T}$ は、最初の $T$ ラウンドと $K$ で出現したベース アーム コンテキストのセットに関連付けられた最大情報利得です。
すべてのラウンドにわたる最大のスーパー アーム カーディナリティです。
最後に、合成データと現実世界のデータを使用し、連合学習設定とコンテンツ推奨設定に基づいた実験で、私たちのアルゴリズムが現在の非 GP 最先端の組み合わせバンディット アルゴリズムよりも優れたパフォーマンスを発揮することを示します。
グループの制約を満たします。

要約(オリジナル)

In federated multi-armed bandit problems, maximizing global reward while satisfying minimum privacy requirements to protect clients is the main goal. To formulate such problems, we consider a combinatorial contextual bandit setting with groups and changing action sets, where similar base arms arrive in groups and a set of base arms, called a super arm, must be chosen in each round to maximize super arm reward while satisfying the constraints of the rewards of groups from which base arms were chosen. To allow for greater flexibility, we let each base arm have two outcomes, modeled as the output of a two-output Gaussian process (GP), where one outcome is used to compute super arm reward and the other for group reward. We then propose a novel double-UCB GP-bandit algorithm, called Thresholded Combinatorial Gaussian Process Upper Confidence Bounds (TCGP-UCB), which balances between maximizing cumulative super arm reward and satisfying group reward constraints and can be tuned to prefer one over the other. We also define a new notion of regret that combines super arm regret with group reward constraint satisfaction and prove that TCGP-UCB incurs $\tilde{O}(\sqrt{\lambda^*(K)KT\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$ is the maximum information gain associated with the set of base arm contexts that appeared in the first $T$ rounds and $K$ is the maximum super arm cardinality over all rounds. We lastly show in experiments using synthetic and real-world data and based on a federated learning setup as well as a content-recommendation one that our algorithm performs better then the current non-GP state-of-the-art combinatorial bandit algorithm, while satisfying group constraints.

arxiv情報

著者 Sepehr Elahi,Baran Atalar,Sevda Öğüt,Cem Tekin
発行日 2023-07-10 15:11:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6, stat.AP, stat.ML パーマリンク