Exploration via linearly perturbed loss minimisation

要約

線形損失摂動による探索 (EVILL) を導入します。これは、線形摂動の正則化された負の対数尤度関数の最小化関数を解くことによって機能する、構造化確率的バンディット問題のランダム化探索手法です。
一般化された線形バンディットの場合、EVILL は摂動履歴探索 (PHE)、つまりランダムに摂動された報酬のトレーニングによって探索が行われる方法に帰着することを示します。
そうすることで、ランダムな報酬の変動が優れたバンディット アルゴリズムを生み出す時期と理由について、シンプルかつ明確な説明を提供します。
以前の PHE タイプの手法には存在しなかった、我々が提案するデータ依存の摂動を使用すると、EVILL は、理論的にも実践的にも、トンプソン サンプリング スタイルのパラメータ摂動手法のパフォーマンスに匹敵することが示されています。
さらに、一般化された線形バンディットの外側の例を示します。この例では、EVILL はパフォーマンスを維持しながら、PHE が一貫性のない推定値をもたらし、したがって線形リグレスが発生します。
PHE と同様に、EVILL はわずか数行のコードで実装できます。

要約(オリジナル)

We introduce exploration via linear loss perturbations (EVILL), a randomised exploration method for structured stochastic bandit problems that works by solving for the minimiser of a linearly perturbed regularised negative log-likelihood function. We show that, for the case of generalised linear bandits, EVILL reduces to perturbed history exploration (PHE), a method where exploration is done by training on randomly perturbed rewards. In doing so, we provide a simple and clean explanation of when and why random reward perturbations give rise to good bandit algorithms. With the data-dependent perturbations we propose, not present in previous PHE-type methods, EVILL is shown to match the performance of Thompson-sampling-style parameter-perturbation methods, both in theory and in practice. Moreover, we show an example outside of generalised linear bandits where PHE leads to inconsistent estimates, and thus linear regret, while EVILL remains performant. Like PHE, EVILL can be implemented in just a few lines of code.

arxiv情報

著者 David Janz,Shuai Liu,Alex Ayoub,Csaba Szepesvári
発行日 2023-11-13 18:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク