Adversarial Rewards in Universal Learning for Contextual Bandits

要約

私たちは、コンテキストバンディットにおける学習の基本的な限界を研究します。学習者の報酬は学習者の行動と既知のコンテキストに依存し、標準的な多腕バンディットをサイド情報が利用可能な場合に拡張します。
私たちは、関数クラスの制限なしに、測定可能な固定ポリシーと比較してサブリニアリグレスを達成する、普遍的に一貫したアルゴリズムに興味を持っています。
静止したコンテキストバンディットの場合、根底にある報酬メカニズムが時間不変である場合、Blanchard et 。
al (2022) は、普遍的な一貫性が達成可能な学習可能なコンテキスト プロセスを特徴付けました。
さらに、これが達成可能な場合には常に普遍的な一貫性を保証するアルゴリズムを提供しました。これは、楽観的な普遍的な一貫性として知られる特性です。
しかし、報酬メカニズムは時間の経過とともに、場合によっては敵対的に、学習者の行動に応じて進化する可能性があることはよく理解されています。
私たちは、これまで研究されてきたオンライン学習のすべての設定(標準的な教師あり学習を含む)とは対照的に、敵対的報酬を伴うコンテキストバンディットに対する楽観的な普遍学習は一般に不可能であることを示します。
また、さまざまな敵対的報酬モデルの下での普遍的な学習のための必要十分条件と、オンライン報酬の正確な特徴付けも提供します。
特に、これらの報酬モデルの学習可能なプロセスのセットは依然として非常に一般的であり、i.i.d、定常またはエルゴーディックよりも大きいですが、一般に教師あり学習または定常コンテキスト バンディットのプロセスよりも厳密に小さく、新しい敵対的な現象に光を当てています。

要約(オリジナル)

We study the fundamental limits of learning in contextual bandits, where a learner’s rewards depend on their actions and a known context, which extends the canonical multi-armed bandit to the case where side-information is available. We are interested in universally consistent algorithms, which achieve sublinear regret compared to any measurable fixed policy, without any function class restriction. For stationary contextual bandits, when the underlying reward mechanism is time-invariant, Blanchard et. al (2022) characterized learnable context processes for which universal consistency is achievable; and further gave algorithms ensuring universal consistency whenever this is achievable, a property known as optimistic universal consistency. It is well understood, however, that reward mechanisms can evolve over time, possibly adversarially, and depending on the learner’s actions. We show that optimistic universal learning for contextual bandits with adversarial rewards is impossible in general, contrary to all previously studied settings in online learning — including standard supervised learning. We also give necessary and sufficient conditions for universal learning under various adversarial reward models, and an exact characterization for online rewards. In particular, the set of learnable processes for these reward models is still extremely general — larger than i.i.d., stationary or ergodic — but in general strictly smaller than that for supervised learning or stationary contextual bandits, shedding light on new adversarial phenomena.

arxiv情報

著者 Moise Blanchard,Steve Hanneke,Patrick Jaillet
発行日 2023-06-12 16:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク