Optimisic Information Directed Sampling


私たちは、損失関数が既知のパラメトリック関数クラスに属すると仮定されるコンテキスト バンディット問題におけるオンライン学習の問題を研究します。
私たちは、この決定に基づいて、Russo and Van Roy (2018) による情報指向サンプリングのベイズ理論と Foster、Kakade、Qian、および Rakhlin (2021) の最悪の場合の理論を橋渡しする、この設定に対する新しい分析フレームワークを提案します。
両方の研究分野から得て、私たちはオプティミスティック情報指向サンプリングと呼ばれるアルゴリズム テンプレートを提案し、古典的なベイジアン IDS 手法で達成できるものと同様のインスタンス依存のリグアランス保証を達成できることを示しますが、何も必要としないという大きな利点があります。
私たちの分析の主な技術革新は、後悔に対する楽観的な代理モデルを導入し、それを使用して Russo と Van Roy (2018) の情報比率の頻度主義バージョンと、Foster et の意思決定推定係数のそれほど保守的ではないバージョンを定義することです。
キーワード: コンテキストバンディット、情報指向サンプリング、意思決定推定係数、一次リグレス限界。


We study the problem of online learning in contextual bandit problems where the loss function is assumed to belong to a known parametric function class. We propose a new analytic framework for this setting that bridges the Bayesian theory of information-directed sampling due to Russo and Van Roy (2018) and the worst-case theory of Foster, Kakade, Qian, and Rakhlin (2021) based on the decision-estimation coefficient. Drawing from both lines of work, we propose a algorithmic template called Optimistic Information-Directed Sampling and show that it can achieve instance-dependent regret guarantees similar to the ones achievable by the classic Bayesian IDS method, but with the major advantage of not requiring any Bayesian assumptions. The key technical innovation of our analysis is introducing an optimistic surrogate model for the regret and using it to define a frequentist version of the Information Ratio of Russo and Van Roy (2018), and a less conservative version of the Decision Estimation Coefficient of Foster et al. (2021). Keywords: Contextual bandits, information-directed sampling, decision estimation coefficient, first-order regret bounds.


著者 Gergely Neu,Matteo Papini,Ludovic Schwartz
発行日 2024-02-23 16:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク