Non-stationary Contextual Bandits and Universal Learning

要約

学習者の報酬が彼らの行動と既知のコンテキストに依存するコンテキスト バンディットにおける学習の基本的な限界を研究します。
関数クラスの制限なしで、測定可能な固定ポリシーと比較してサブリニアな後悔を達成する普遍的に一貫したアルゴリズムに関心があります。
定常的なコンテキスト バンディットの場合、基礎となる報酬メカニズムが時不変である場合、[Blanchard et al.] は、普遍的な一貫性が達成可能な学習可能なコンテキスト プロセスを特徴付けました。
さらに、これが達成可能な場合はいつでも普遍的な一貫性を保証するアルゴリズムを与えました。これは、楽観的な普遍的な一貫性として知られる特性です。
しかし、おそらく学習者の行動に応じて、報酬メカニズムが時間の経過とともに進化する可能性があることはよく理解されています。
標準的な教師あり学習を含む、オンライン学習で以前に研究されたすべての設定とは対照的に、非定常文脈バンディットの楽観的普遍学習は一般に不可能であることを示します。
また、オンラインおよび敵対的報酬メカニズムを含む、さまざまな非定常モデルの下での普遍的な学習の必要十分条件も与えます。
特に、非定常報酬の学習可能なプロセスのセットは依然として非常に一般的であり、i.i.d.、定常またはエルゴードよりも大きいですが、一般的に、教師あり学習または定常コンテキスト バンディットの場合よりも厳密に小さく、新しい非定常報酬に光を当てています。
現象。

要約(オリジナル)

We study the fundamental limits of learning in contextual bandits, where a learner’s rewards depend on their actions and a known context, which extends the canonical multi-armed bandit to the case where side-information is available. We are interested in universally consistent algorithms, which achieve sublinear regret compared to any measurable fixed policy, without any function class restriction. For stationary contextual bandits, when the underlying reward mechanism is time-invariant, [Blanchard et al.] characterized learnable context processes for which universal consistency is achievable; and further gave algorithms ensuring universal consistency whenever this is achievable, a property known as optimistic universal consistency. It is well understood, however, that reward mechanisms can evolve over time, possibly depending on the learner’s actions. We show that optimistic universal learning for non-stationary contextual bandits is impossible in general, contrary to all previously studied settings in online learning — including standard supervised learning. We also give necessary and sufficient conditions for universal learning under various non-stationarity models, including online and adversarial reward mechanisms. In particular, the set of learnable processes for non-stationary rewards is still extremely general — larger than i.i.d., stationary or ergodic — but in general strictly smaller than that for supervised learning or stationary contextual bandits, shedding light on new non-stationary phenomena.

arxiv情報

著者 Moise Blanchard,Steve Hanneke,Patrick Jaillet
発行日 2023-02-14 16:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク