要約
多くの研究で、コンテキストとアクションのペアに対する平均報酬が関数クラスに属する、関数近似を使用したコンテキスト バンディット用のアルゴリズム no-regret アルゴリズムが開発されています。
この問題には多くのアプローチがありますが、重要性が増しているのは、楽観的最小二乗法などの楽観原理に基づくアルゴリズムの使用です。
このアルゴリズムの残念さは、とらえどころのない次元 (関数クラスの複雑さの統計的尺度)、関数クラス サイズの対数、および時間軸の積の平方根としてスケールされることがわかります。
残念ながら、各時点での報酬の測定ノイズの分散が変化しており、非常に小さい場合でも、楽観的最小二乗アルゴリズムの後悔は時間軸の平方根に比例します。
この研究では、時間軸の平方根ではなく、分散が
未知。
これらの境界は、文脈に応じた線形問題で 2 次境界を導出する既存の手法を一般化します。
要約(オリジナル)
Many works have developed algorithms no-regret algorithms for contextual bandits with function approximation, where the mean rewards over context-action pairs belongs to a function class. Although there are many approaches to this problem, one that has gained in importance is the use of algorithms based on the optimism principle such as optimistic least squares. It can be shown the regret of this algorithm scales as square root of the product of the eluder dimension (a statistical measure of the complexity of the function class), the logarithm of the function class size and the time horizon. Unfortunately, even if the variance of the measurement noise of the rewards at each time is changing and is very small, the regret of the optimistic least squares algorithm scales with square root of the time horizon. In this work we are the first to develop algorithms that satisfy regret bounds of scaling not with the square root of the time horizon, but the square root of the sum of the measurement variances in the setting of contextual bandits with function approximation when the variances are unknown. These bounds generalize existing techniques for deriving second order bounds in contextual linear problems.
arxiv情報
著者 | Aldo Pacchiano |
発行日 | 2024-09-24 15:42:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google