Linear Bandits with Memory: from Rotting to Rising

要約

レコメンデーションにおける飽和効果などの非定常現象は、逐次的な意思決定の問題に共通する特徴です。
これらの現象は主に有限数のアームを持つバンディットの枠組みで研究されてきましたが、実際に関連する多くのケースでは、線形バンディットの方がより効果的なモデリングの選択肢を提供します。
この作業では、現在の報酬が固定サイズのウィンドウでの学習者の過去の行動の影響を受ける、非定常線形バンディットの研究のための一般的なフレームワークを紹介します。
特に、私たちのモデルには、特殊なケースとして静止線形バンディットが含まれています。
アクションの最良のシーケンスはモデルで計算するのが NP 困難であることを示した後、循環ポリシーに焦点を当て、近似誤差と推定誤差のバランスを取る OFUL アルゴリズムのバリアントのリグレット バウンドを証明します。
私たちの理論的発見は、私たちのアルゴリズムが自然なベースラインに対してうまく機能することが見られる実験(設定の誤りも含む)によって裏付けられています。

要約(オリジナル)

Nonstationary phenomena, such as satiation effects in recommendation, are a common feature of sequential decision-making problems. While these phenomena have been mostly studied in the framework of bandits with finitely many arms, in many practically relevant cases linear bandits provide a more effective modeling choice. In this work, we introduce a general framework for the study of nonstationary linear bandits, where current rewards are influenced by the learner’s past actions in a fixed-size window. In particular, our model includes stationary linear bandits as a special case. After showing that the best sequence of actions is NP-hard to compute in our model, we focus on cyclic policies and prove a regret bound for a variant of the OFUL algorithm that balances approximation and estimation errors. Our theoretical findings are supported by experiments (which also include misspecified settings) where our algorithm is seen to perform well against natural baselines.

arxiv情報

著者 Giulia Clerici,Pierre Laforgue,Nicolò Cesa-Bianchi
発行日 2023-02-16 15:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク