Approximately Stationary Bandits with Knapsacks


バンディット ウィズ ナップザック (BwK) は、予算の制約下での多腕バンディットの一般化であり、近年多くの注目を集めています。
これには、動的な価格設定、繰り返されるオークションなど、数多くのアプリケーションがあります。これまでの研究では、2 つの極端なものの 1 つに焦点が当てられていました。
分布、およびこれらの値が敵対者によって選択される場合の Adversarial BwK。
2 つのケースで達成可能な保証には大きなギャップがあります。確率論的 BwK では後悔のない学習が達成可能ですが、敵対的 BwK では、競争率が予算に依存する競争率スタイルの保証のみが達成可能です。
このギャップが非常に大きいのは、Adversarial BwK では、予算がより拘束力のある典型的なケースで保証が悪化するためです。
「両方の世界のベスト」タイプのアルゴリズム (両方の極端なケースで達成可能な最高の保証を提供するアルゴリズム) は知られていますが、環境が完全に確率論的でなくなるとすぐに、それらの保証は敵対的なケースに劣化します。
インスタンスがどれだけ確率論的または敵対的であるかをパラメータ化する、近似定常 BwK という条件を定義します。
これらのパラメーターに基づいて、BwK で達成可能な最高の競争率を調べます。
パラメータの値に気付かないが、パラメータの値に応じて、2 つの極端なケースで可能な限り最良の保証の間をスムーズに移行する競争率を保証する 2 つのアルゴリズムを調べます。


Bandits with Knapsacks (BwK), the generalization of the Multi-Armed Bandits under budget constraints, has received a lot of attention in recent years. It has numerous applications, including dynamic pricing, repeated auctions, etc. Previous work has focused on one of the two extremes: Stochastic BwK where the rewards and consumptions of the resources each round are sampled from an i.i.d. distribution, and Adversarial BwK where these values are picked by an adversary. Achievable guarantees in the two cases exhibit a massive gap: No-regret learning is achievable in Stochastic BwK, but in Adversarial BwK, only competitive ratio style guarantees are achievable, where the competitive ratio depends on the budget. What makes this gap so vast is that in Adversarial BwK the guarantees get worse in the typical case when the budget is more binding. While “best-of-both-worlds” type algorithms are known (algorithms that provide the best achievable guarantee in both extreme cases), their guarantees degrade to the adversarial case as soon as the environment is not fully stochastic. Our work aims to bridge this gap, offering guarantees for a workload that is not exactly stochastic but is also not worst-case. We define a condition, Approximately Stationary BwK, that parameterizes how close to stochastic or adversarial an instance is. Based on these parameters, we explore what is the best competitive ratio attainable in BwK. We explore two algorithms that are oblivious to the values of the parameters but guarantee competitive ratios that smoothly transition between the best possible guarantees in the two extreme cases, depending on the values of the parameters. Our guarantees offer great improvement over the adversarial guarantee, especially when the available budget is small. We also prove bounds on the achievable guarantee, showing that our results are approximately tight when the budget is small.


著者 Giannis Fikioris,Éva Tardos
発行日 2023-02-28 15:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, stat.ML パーマリンク