Best of Many Worlds Guarantees for Online Learning with Knapsacks

要約

意思決定者が $m$ リソース制約の有限セットに違反することなく、期待される報酬を最大化したいオンライン学習問題を研究します。
戦略混合の適切に定義された空間に学習プロセスをキャストすることにより、非凸報酬とリソース消費関数を使用した一般的な設定であっても、根本的な最適化問題のラグランジュ緩和で強い双対性を回復します。
次に、確率的、敵対的、および非定常的な入力の下で後悔のない保証を備えた、この設定用の最初の多世界型フレームワークを提供します。
私たちのフレームワークは、確率論的なケースで以前の研究と同じ後悔保証をもたらします。
一方、予算が時間枠内で少なくとも直線的に増加する場合、敵対的なケースで一定の競争率を提供することができます。これは、$O(\log m \log T) の最もよく知られている上限を超えて改善されます。
$.
さらに、私たちのフレームワークにより、意思決定者は非凸の報酬関数とコスト関数を処理できます。
フレームワークの柔軟性のさらなる証拠を提供するために、フレームワークの 2 つのゲーム理論アプリケーションを提供します。
そうすることで、繰り返されるファーストプライスオークションで予算ペーシングメカニズムを実装するために使用できることを示します。

要約(オリジナル)

We study online learning problems in which a decision maker wants to maximize their expected reward without violating a finite set of $m$ resource constraints. By casting the learning process over a suitably defined space of strategy mixtures, we recover strong duality on a Lagrangian relaxation of the underlying optimization problem, even for general settings with non-convex reward and resource-consumption functions. Then, we provide the first best-of-many-worlds type framework for this setting, with no-regret guarantees under stochastic, adversarial, and non-stationary inputs. Our framework yields the same regret guarantees of prior work in the stochastic case. On the other hand, when budgets grow at least linearly in the time horizon, it allows us to provide a constant competitive ratio in the adversarial case, which improves over the best known upper bound bound of $O(\log m \log T)$. Moreover, our framework allows the decision maker to handle non-convex reward and cost functions. We provide two game-theoretic applications of our framework to give further evidence of its flexibility. In doing so, we show that it can be employed to implement budget-pacing mechanisms in repeated first-price auctions.

arxiv情報

著者 Andrea Celli,Matteo Castiglioni,Christian Kroer
発行日 2023-03-10 14:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク