Data-Dependent Regret Bounds for Constrained MABs

要約

このペーパーでは、制約されたMAB設定におけるデータ依存の後悔の境界の研究を開始します。
これらの境界は、問題インスタンスを特徴付ける一連の損失に依存します。
したがって、それらは古典的な$ \ widetilde {\ mathcal {o}}(\ sqrt {t})$後悔の境界よりもはるかに小さくなりますが、最悪の場合はそれらに相当します。
それにもかかわらず、拘束されたMAB設定では、データ依存の後悔の境界が完全に見落とされています。
この論文の目標は、次の質問に答えることです。データ依存の後悔の範囲は、制約の存在下で導き出すことができますか?
この質問は、敵対的な損失と確率的制約を伴う制約されたmabで肯定的に答えます。
具体的には、私たちの主な焦点は、ハード制約を備えた最も挑戦的で自然な設定にあります。この場合、学習者は、制約が常に高い確率で満たされることを保証する必要があります。
2つのデータ依存性項で構成される後悔のバウンドでアルゴリズムを設計します。
最初の用語は制約を満たすことの難しさを捉え、2番目の用語は制約の存在とは無関係に学習の複雑さをコードします。
また、これらの2つの用語が特定のアプローチと分析のアーティファクトではなく、問題の複雑さを本質的に特徴付ける基本的なコンポーネントであることを示す下限を証明します。
最後に、アルゴリズムを設計する際には、関連する(そして簡単な)ソフト制約設定でいくつかの新しい結果を導き出します。

要約(オリジナル)

This paper initiates the study of data-dependent regret bounds in constrained MAB settings. These bounds depend on the sequence of losses that characterize the problem instance. Thus, they can be much smaller than classical $\widetilde{\mathcal{O}}(\sqrt{T})$ regret bounds, while being equivalent to them in the worst case. Despite this, data-dependent regret bounds have been completely overlooked in constrained MAB settings. The goal of this paper is to answer the following question: Can data-dependent regret bounds be derived in the presence of constraints? We answer this question affirmatively in constrained MABs with adversarial losses and stochastic constraints. Specifically, our main focus is on the most challenging and natural settings with hard constraints, where the learner must ensure that the constraints are always satisfied with high probability. We design an algorithm with a regret bound consisting of two data-dependent terms. The first term captures the difficulty of satisfying the constraints, while the second one encodes the complexity of learning independently of the presence of constraints. We also prove a lower bound showing that these two terms are not artifacts of our specific approach and analysis, but rather the fundamental components that inherently characterize the complexities of the problem. Finally, in designing our algorithm, we also derive some novel results in the related (and easier) soft constraints settings, which may be of independent interest.

arxiv情報

著者 Gianmarco Genalti,Francesco Emanuele Stradi,Matteo Castiglioni,Alberto Marchesi,Nicola Gatti
発行日 2025-05-26 14:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク