Does Sparsity Help in Learning Misspecified Linear Bandits?

要約

【タイトル】疎行列バンディット学習においてスパース性が学習に役立つか?

【要約】

– 線形ミススペックしたバンディットの研究は、バンディットと強化学習(RL)での学習の困難さに関する興味深い示唆を生み出している。しかし、地真パラメーターに構造的な仮定があれば、スパース性がε√dの壁を破ることができるかどうかは不明である。
– 本論文では、アルゴリズムがO(ε)-最適行動をε-スパース行列を用いて学ぶことができ、サンプル回数の上限がO(ε ^ -s d ^ s)になることを示す。ここで、sはスパースパラメーターであり、exp(d)の依存関係を解決する。また、情報理論的下限$\Omega(exp(s))$を確立し、$0 < \delta < 1$のエラー$O(s ^ {\delta}ε)$を要求する場合には、サンプル複雑度の上限がほぼギリギリであることを示す。 - $\delta\geq 1$の場合、線形特徴が「良好」である場合や一般的な設定でも、ポリ(s/ε)クエリが可能であることをさらに示す。これらの結果は、疎行列バンディット学習でスパース性がどのように役立つかのほぼ完全なイメージを与え、ミススペックに対するバンディットと強化学習で線形特徴が「有用」な場合の深い理解を提供します。

要約(オリジナル)

Recently, the study of linear misspecified bandits has generated intriguing implications of the hardness of learning in bandits and reinforcement learning (RL). In particular, Du et al. (2020) show that even if a learner is given linear features in $\mathbb{R}^d$ that approximate the rewards in a bandit or RL with a uniform error of $\varepsilon$, searching for an $O(\varepsilon)$-optimal action requires pulling at least $\Omega(\exp(d))$ queries. Furthermore, Lattimore et al. (2020) show that a degraded $O(\varepsilon\sqrt{d})$-optimal solution can be learned within $\operatorname{poly}(d/\varepsilon)$ queries. Yet it is unknown whether a structural assumption on the ground-truth parameter, such as sparsity, could break the $\varepsilon\sqrt{d}$ barrier. In this paper, we address this question by showing that algorithms can obtain $O(\varepsilon)$-optimal actions by querying $O(\varepsilon^{-s}d^s)$ actions, where $s$ is the sparsity parameter, removing the $\exp(d)$-dependence. We then establish information-theoretical lower bounds, i.e., $\Omega(\exp(s))$, to show that our upper bound on sample complexity is nearly tight if one demands an error $ O(s^{\delta}\varepsilon)$ for $0<\delta<1$. For $\delta\geq 1$, we further show that $\operatorname{poly}(s/\varepsilon)$ queries are possible when the linear features are 'good' and even in general settings. These results provide a nearly complete picture of how sparsity can help in misspecified bandit learning and provide a deeper understanding of when linear features are 'useful' for bandit and reinforcement learning with misspecification.

arxiv情報

著者 Jialin Dong,Lin F. Yang
発行日 2023-03-29 19:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク