On the Hardness of Bandit Learning

要約

真の報酬関数fは既知のがarbitrary意的な機能クラスFに属するという仮定の下で、ベストアーム識別としても知られる盗賊学習のタスクを研究します。
私たちの調査は、次の2つの質問に基づいています。(1)どのクラスfが学習できるか、(2)それらがどのように学習できるか。
たとえば、バイナリPAC分類の場合、学習性は組み合わせの次元(VCディメンション)によって完全に決定され、単純なアルゴリズム原理、すなわち経験的リスク最小化(ERM)によって達成できます。
古典的な学習の理論的結果とは対照的に、私たちの調査結果は、構造化された盗賊における学習の限界を明らかにし、盗賊の学習性の境界に関する洞察を提供します。
まず、「どちら」の問題については、ディメンションのような量を介して学習可能なクラスを識別するパラダイムが盗賊学習に失敗することを示します。
Ben-David et al。
(2019)。
「方法」の問題については、計算硬度の結果を証明します。最適なアクションを見つけるために最大2つのクエリが必要な報酬関数クラスを構築しますが、rp = npでない限り、アルゴリズムは多項式時間ではそれを行うことはできません。
また、このクラスは、ERMなどの学習理論でしばしば考慮される標準的なアルゴリズム操作の効率的なアルゴリズムを認めていることを証明します。
これは、この場合、計算硬度が盗賊学習のタスクに固有のものであることを意味します。
これらの結果を超えて、ノイズの下での学習、ノイズモデル間のトレードオフ、クエリの複雑さと後悔の最小化の関係などの追加のテーマを調査します。

要約(オリジナル)

We study the task of bandit learning, also known as best-arm identification, under the assumption that the true reward function f belongs to a known, but arbitrary, function class F. We seek a general theory of bandit learnability, akin to the PAC framework for classification. Our investigation is guided by the following two questions: (1) which classes F are learnable, and (2) how they are learnable. For example, in the case of binary PAC classification, learnability is fully determined by a combinatorial dimension – the VC dimension- and can be attained via a simple algorithmic principle, namely, empirical risk minimization (ERM). In contrast to classical learning-theoretic results, our findings reveal limitations of learning in structured bandits, offering insights into the boundaries of bandit learnability. First, for the question of ‘which’, we show that the paradigm of identifying the learnable classes via a dimension-like quantity fails for bandit learning. We give a simple proof demonstrating that no combinatorial dimension can characterize bandit learnability, even in finite classes, following a standard definition of dimension introduced by Ben-David et al. (2019). For the question of ‘how’, we prove a computational hardness result: we construct a reward function class for which at most two queries are needed to find the optimal action, yet no algorithm can do so in polynomial time unless RP=NP. We also prove that this class admits efficient algorithms for standard algorithmic operations often considered in learning theory, such as an ERM. This implies that computational hardness is in this case inherent to the task of bandit learning. Beyond these results, we investigate additional themes such as learning under noise, trade-offs between noise models, and the relationship between query complexity and regret minimization.

arxiv情報

著者 Nataly Brukhim,Aldo Pacchiano,Miroslav Dudik,Robert Schapire
発行日 2025-06-17 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク