Weighted Tallying Bandits: Overcoming Intractability via Repeated Exposure Optimality

要約

【タイトル】重み付き集計バンディット:繰り返し暴露最適性を介した解決不能性の克服

【要約】

– オンライン学習のリコメンデーションシステムやクラウドソーシングなどのアプリケーションにおいて、人間の好みや能力はアルゴリズムの直近のアクションの関数であることが多い
– これに着想を得て、行動のロスは、最近の$m$ステップ中にその行動が再生された回数の関数であるという設定を形式化する多くの研究がある
– 人間の記憶の減衰をより真実に捉えるために、ウェイト付き集計バンディット(WTB)を導入する
– WTBは、行動の損失が、過去の$m$ステップでそのアームが再生された回数の「重み付き」和の関数であることを必要とする設定であり、これは途方もなく複雑である
– 繰り返し暴露最適性(REO)の下でWTBを研究することで、完全なポリシーリグレット(CPR)を最小限に抑えることを研究する
– 通常、$m$は未知であるため、$m$の上限$M$にアクセスできるものと仮定する
– 問題に対して、$K$の行動と$T$のホライズンを持つ場合、連続消去アルゴリズムの単純な修正は、$O(\sqrt{KT}+(m+M)K)$ CPRを持つ
– 興味深いことに、(m + M)Kの加算(乗算の代わりに)要因を持つことを除いて、これは、従来のリグレットを持つより単純な確率的マルチアームドバンディットの古典的な保証を回復する
– さらに、我々の設定では、どのアルゴリズムも加算CPRをΩ(m K + M)で受けることになり、我々の結果がほぼ最適であることを示している
– 我々のアルゴリズムは計算効率がよく、自然なベースラインよりも実用的で優れていることを実験的に示す

要約(オリジナル)

In recommender system or crowdsourcing applications of online learning, a human’s preferences or abilities are often a function of the algorithm’s recent actions. Motivated by this, a significant line of work has formalized settings where an action’s loss is a function of the number of times that action was recently played in the prior $m$ timesteps, where $m$ corresponds to a bound on human memory capacity. To more faithfully capture decay of human memory with time, we introduce the Weighted Tallying Bandit (WTB), which generalizes this setting by requiring that an action’s loss is a function of a \emph{weighted} summation of the number of times that arm was played in the last $m$ timesteps. This WTB setting is intractable without further assumption. So we study it under Repeated Exposure Optimality (REO), a condition motivated by the literature on human physiology, which requires the existence of an action that when repetitively played will eventually yield smaller loss than any other sequence of actions. We study the minimization of the complete policy regret (CPR), which is the strongest notion of regret, in WTB under REO. Since $m$ is typically unknown, we assume we only have access to an upper bound $M$ on $m$. We show that for problems with $K$ actions and horizon $T$, a simple modification of the successive elimination algorithm has $O \left( \sqrt{KT} + (m+M)K \right)$ CPR. Interestingly, upto an additive (in lieu of mutliplicative) factor in $(m+M)K$, this recovers the classical guarantee for the simpler stochastic multi-armed bandit with traditional regret. We additionally show that in our setting, any algorithm will suffer additive CPR of $\Omega \left( mK + M \right)$, demonstrating our result is nearly optimal. Our algorithm is computationally efficient, and we experimentally demonstrate its practicality and superiority over natural baselines.

arxiv情報

著者 Dhruv Malik,Conor Igoe,Yuanzhi Li,Aarti Singh
発行日 2023-05-04 15:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク