No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization

要約

Bandits with Knapsacks フレームワーク (BwK) では、学習者には $m$ のリソース消費 (パッキング) 制約があります。
学習者が一連の一般的な長期制約を持つ BwK の一般化に焦点を当てます。
学習者の目標は、累積報酬を最大化しながら、同時に小さな累積制約違反を達成することです。
このシナリオでは、BwK の従来の方法では制約のサブリニア違反を生成できない単純な例が存在します。
主アルゴリズムと双対アルゴリズムに弱適応性を要求することで、この問題を回避できることを示します。
実際、問題を特徴づけるスレーターのパラメータ $\rho$ に関する情報が存在しない場合でも、弱適応プライマルと双対リグレス ミニマイザー間の相互作用は、双対変数の「自己境界」特性を生み出します。
特に、それらのノルムは、明示的な投影ステップがなくても、時間軸全体にわたって適切な上限を維持します。
この特性を利用することで、確率的入力と敵対的入力に対して両方の長所を保証します。
最初のケースでは、アルゴリズムが線形未満のリグレスを保証することを示します。
後者の場合、$\rho/(1+\rho)$ という厳しい競争率が確立されます。
どちらの設定でも、制約違反は時間の経過とともに線形未満であることが保証されます。
最後に、この結果により、線形制約を持つコンテキスト バンディットの問題に対する新しい結果を得ることができ、敵対的なコンテキストに対して最初の $\alpha$-後悔のない保証が提供されます。

要約(オリジナル)

In the bandits with knapsacks framework (BwK) the learner has $m$ resource-consumption (packing) constraints. We focus on the generalization of BwK in which the learner has a set of general long-term constraints. The goal of the learner is to maximize their cumulative reward, while at the same time achieving small cumulative constraints violations. In this scenario, there exist simple instances where conventional methods for BwK fail to yield sublinear violations of constraints. We show that it is possible to circumvent this issue by requiring the primal and dual algorithm to be weakly adaptive. Indeed, even in absence on any information on the Slater’s parameter $\rho$ characterizing the problem, the interplay between weakly adaptive primal and dual regret minimizers yields a ‘self-bounding’ property of dual variables. In particular, their norm remains suitably upper bounded across the entire time horizon even without explicit projection steps. By exploiting this property, we provide best-of-both-worlds guarantees for stochastic and adversarial inputs. In the first case, we show that the algorithm guarantees sublinear regret. In the latter case, we establish a tight competitive ratio of $\rho/(1+\rho)$. In both settings, constraints violations are guaranteed to be sublinear in time. Finally, this results allow us to obtain new result for the problem of contextual bandits with linear constraints, providing the first no-$\alpha$-regret guarantees for adversarial contexts.

arxiv情報

著者 Martino Bernasconi,Matteo Castiglioni,Andrea Celli
発行日 2024-05-10 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク