Online Continuous Hyperparameter Optimization for Contextual Bandits

要約

確率的文脈バンディットでは、エージェントは過去の経験に基づいて、時間依存の行動セットから順次行動を起こし、累積後悔を最小化する。他の多くの機械学習アルゴリズムと同様に、バンディッツの性能は複数のハイパーパラメータに大きく依存し、理論的に導き出されたパラメータ値は実際には満足のいく結果をもたらさないことがある。さらに、バンディット環境下でのハイパーパラメータの選択は、リアルタイムで決定する必要があるため、クロスバリデーションのようなオフラインのチューニング手法を用いるのは非現実的である。この課題を解決するために、我々は、文脈バンディットのための最初のオンライン連続ハイパーパラメータチューニングフレームワークを提案し、探索空間内の最適なパラメータ構成をその場で学習する。具体的には、CDT(Continuous Dynamic Tuning)と名付けられた二層バンディットフレームワークを用い、ハイパーパラメータ最適化を非定常連続腕型バンディットとして定式化することで、各腕がハイパーパラメータの組み合わせを表し、対応する報酬がアルゴリズム結果である。トップレイヤーには、トンプソンサンプリング(TS)を利用した探索と、スイッチング環境を回避するためのリスタート技法を利用したZooming TSアルゴリズムを提案します。提案するCDTフレームワークは、ハイパーパラメータの候補セットを事前に指定することなく、文脈バンディットアルゴリズムのチューニングに容易に用いることができる。さらに、理論的にはサブリニアレグリーンを達成し、実際には合成データセットと実データセットの両方で一貫して良好な性能を発揮することが示された。

要約(オリジナル)

In stochastic contextual bandits, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on their multiple hyperparameters, and theoretically derived parameter values may lead to unsatisfactory results in practice. Moreover, it is infeasible to use offline tuning methods like cross-validation to choose hyperparameters under the bandit environment, as the decisions should be made in real time. To address this challenge, we propose the first online continuous hyperparameter tuning framework for contextual bandits to learn the optimal parameter configuration within a search space on the fly. Specifically, we use a double-layer bandit framework named CDT (Continuous Dynamic Tuning) and formulate the hyperparameter optimization as a non-stationary continuum-armed bandit, where each arm represents a combination of hyperparameters, and the corresponding reward is the algorithmic result. For the top layer, we propose the Zooming TS algorithm that utilizes Thompson Sampling (TS) for exploration and a restart technique to get around the switching environment. The proposed CDT framework can be easily used to tune contextual bandit algorithms without any pre-specified candidate set for hyperparameters. We further show that it could achieve sublinear regret in theory and performs consistently better on both synthetic and real datasets in practice.

arxiv情報

著者 Yue Kang,Cho-Jui Hsieh,Thomas C. M. Lee
発行日 2023-06-02 17:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク