Little Exploration is All You Need

要約

「不確実性に対する楽観主義」という一般的な原則は、探索ボーナスの組み込みを推奨しています。探索ボーナスは、一般に訪問回数の逆平方根 ($1/\sqrt{n}$) に比例すると想定されます。ここで、$n$
は、特定の状態とアクションのペアへの訪問数です。
しかし、このアプローチはもっぱら「不確実性」に焦点を当てており、さまざまな選択肢に固有の「困難さ」が無視されています。
このギャップに対処するために、多腕バンディット問題に標準的な UCB アルゴリズムの新しい修正を導入し、タスクを説明する調整済みボーナス項 $1/n^\tau$ ($\tau > 1/2$) を提案します。
困難。
UCB$^\tau$ として示される私たちの提案されたアルゴリズムは、包括的なリグレス分析とリスク分析によって実証され、その理論的な堅牢性が確認されています。
合成データセットに対する標準的な UCB およびトンプソン サンプリング アルゴリズムとの比較評価では、UCB$^\tau$ が有効性において優れているだけでなく、さまざまな環境条件やハイパーパラメーター設定にわたってリスクが低いことが示されています。

要約(オリジナル)

The prevailing principle of ‘Optimism in the Face of Uncertainty’ advocates for the incorporation of an exploration bonus, generally assumed to be proportional to the inverse square root of the visit count ($1/\sqrt{n}$), where $n$ is the number of visits to a particular state-action pair. This approach, however, exclusively focuses on ‘uncertainty,’ neglecting the inherent ‘difficulty’ of different options. To address this gap, we introduce a novel modification of standard UCB algorithm in the multi-armed bandit problem, proposing an adjusted bonus term of $1/n^\tau$, where $\tau > 1/2$, that accounts for task difficulty. Our proposed algorithm, denoted as UCB$^\tau$, is substantiated through comprehensive regret and risk analyses, confirming its theoretical robustness. Comparative evaluations with standard UCB and Thompson Sampling algorithms on synthetic datasets demonstrate that UCB$^\tau$ not only outperforms in efficacy but also exhibits lower risk across various environmental conditions and hyperparameter settings.

arxiv情報

著者 Henry H. H. Chen,Jiaming Lu
発行日 2023-10-26 16:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク