要約
未知の $\textit{好みモデル}$ に従って、エージェントの好み (推奨アイテムに対する選択確率を表す) が過去の選択の関数として進化するバンディット推奨問題を考えます。
各ラウンドで、(合計 $n$ のうち) $k$ 項目のメニューをエージェントに示し、エージェントは 1 つの項目を選択します。そして、一部の $\textit{ターゲット セット}$ に対する後悔を最小限に抑えることを目指します。
(アイテムシンプレックスのサブセット) エージェントの選択に対する敵対的損失の場合。
均一メモリ エージェントが考慮された Agarwal と Brown (2022) の設定を拡張して、ここでは後続の各ラウンドでエージェントのメモリ ベクトルに割引係数が適用される不均一メモリを許可します。
「長期記憶」領域 (有効記憶範囲が $T$ に応じてサブリニアにスケールする場合) では、$\textit{どこでも瞬時に実現可能な分布}$ (‘
EIRD セット’ (以前の研究で定式化されたもの) を $\textit{smooth}$ 設定モデルに適用します。
さらに、メモリ重みの線形関数によって上下に制限されるプリファレンス (これらを「スケール境界」プリファレンスと呼びます) については、ほぼ $\textit{全体}$ 項目シンプレックスに関して効率的なサブリニアリグレスを取得するアルゴリズムを提供します。
。
一般に EIRD を超えたターゲットに拡張するための NP 硬度の結果を示します。
「短期記憶」領域(記憶範囲が一定の場合)では、損失があまり頻繁に変化しない場合、スケール境界の選好により、滑らかさがなくても、シンプレックスのほぼ全体に対して効率的なサブリニアリグレスが再び可能になることを示します。
損失が一定の場合でも、任意のスムーズ優先モデルの下で設定された EIRD と競合するための情報理論的障壁。
要約(オリジナル)
We consider a bandit recommendations problem in which an agent’s preferences (representing selection probabilities over recommended items) evolve as a function of past selections, according to an unknown $\textit{preference model}$. In each round, we show a menu of $k$ items (out of $n$ total) to the agent, who then chooses a single item, and we aim to minimize regret with respect to some $\textit{target set}$ (a subset of the item simplex) for adversarial losses over the agent’s choices. Extending the setting from Agarwal and Brown (2022), where uniform-memory agents were considered, here we allow for non-uniform memory in which a discount factor is applied to the agent’s memory vector at each subsequent round. In the ‘long-term memory’ regime (when the effective memory horizon scales with $T$ sublinearly), we show that efficient sublinear regret is obtainable with respect to the set of $\textit{everywhere instantaneously realizable distributions}$ (the ‘EIRD set’, as formulated in prior work) for any $\textit{smooth}$ preference model. Further, for preferences which are bounded above and below by linear functions of memory weight (we call these ‘scale-bounded’ preferences) we give an algorithm which obtains efficient sublinear regret with respect to nearly the $\textit{entire}$ item simplex. We show an NP-hardness result for expanding to targets beyond EIRD in general. In the ‘short-term memory’ regime (when the memory horizon is constant), we show that scale-bounded preferences again enable efficient sublinear regret for nearly the entire simplex even without smoothness if losses do not change too frequently, yet we show an information-theoretic barrier for competing against the EIRD set under arbitrary smooth preference models even when losses are constant.
arxiv情報
著者 | Arpit Agarwal,William Brown |
発行日 | 2024-02-06 16:08:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google