Maximal Objectives in the Multi-armed Bandit with Applications

要約

確率的多腕バンディット問題のいくつかのアプリケーションでは、期待される総報酬を最大化するという従来の目的は不適切な場合があります。
このホワイト ペーパーでは、オンライン プラットフォームでの特定の運用上の懸念に動機付けられて、従来の設定における新しい目的を検討します。
$K$ アームが与えられた場合、$T$ プルから期待される総報酬 (従来の「合計」目標) を最大化する代わりに、$T$ の終わりに $K$ アームのそれぞれから得られる総報酬のベクトルを検討します。
プルし、腕全体で予想される最高の合計報酬を最大化することを目指します (「最大」目標)。
この目的のために、どのポリシーも $\Omega(\log T)$ のインスタンス依存の漸近的後悔 (従来の目的と比較してより高いインスタンス依存の定数) と $\ の最悪の場合の後悔を被らなければならないことを示します。
オメガ(K^{1/3}T^{2/3})$.
次に、適切に調整された平均報酬の信頼限界と、問題の難易度に適応し、これらの限界を達成する適応停止基準 (対数係数まで) に基づく探査を特徴とする、適応探査後コミット ポリシーを設計します。
次に、アルゴリズムの洞察を一般化して、総報酬が最も高い上位 $m$ アームの平均総報酬の期待値を最大化する問題に当てはめます。
私たちの数値実験は、実際のパラメーター体制におけるいくつかの自然な選択肢と比較して、私たちのポリシーの有効性を示しています。
これらの新しい目的を、オンライン プラットフォームで価値を提供する市場参加者 (労働者/売り手/サービス プロバイダー) の適切な供給を整える問題への適用について説明します。

要約(オリジナル)

In several applications of the stochastic multi-armed bandit problem, the traditional objective of maximizing the expected total reward can be inappropriate. In this paper, motivated by certain operational concerns in online platforms, we consider a new objective in the classical setup. Given $K$ arms, instead of maximizing the expected total reward from $T$ pulls (the traditional ‘sum’ objective), we consider the vector of total rewards earned from each of the $K$ arms at the end of $T$ pulls and aim to maximize the expected highest total reward across arms (the ‘max’ objective). For this objective, we show that any policy must incur an instance-dependent asymptotic regret of $\Omega(\log T)$ (with a higher instance-dependent constant compared to the traditional objective) and a worst-case regret of $\Omega(K^{1/3}T^{2/3})$. We then design an adaptive explore-then-commit policy featuring exploration based on appropriately tuned confidence bounds on the mean reward and an adaptive stopping criterion, which adapts to the problem difficulty and achieves these bounds (up to logarithmic factors). We then generalize our algorithmic insights to the problem of maximizing the expected value of the average total reward of the top $m$ arms with the highest total rewards. Our numerical experiments demonstrate the efficacy of our policies compared to several natural alternatives in practical parameter regimes. We discuss applications of these new objectives to the problem of grooming an adequate supply of value-providing market participants (workers/sellers/service providers) in online platforms.

arxiv情報

著者 Eren Ozbay,Vijay Kamble
発行日 2023-03-10 15:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク