Energy Regularized RNNs for Solving Non-Stationary Bandit Problems

要約

報酬が非定常であり、過去の行動や潜在的に過去のコンテキストに依存する多腕バンディット問題を考えます。
この方法の中心にあるのは、これらのシーケンスをモデル化する再帰型ニューラル ネットワークです。
探索と利用のバランスをとるために、特定のアクションをサポートするためにニューラル ネットワークが自信を持ちすぎるのを防ぐエネルギー最小化用語を提示します。
この項は、ネットワークによって割り当てられた最大確率と最小確率の間のギャップを制限する可能性があります。
さまざまな一連の実験で、私たちの方法が Rotting Bandits のサブ問題を解決するために提案された方法と少なくとも同じくらい効果的であり、さまざまなベンチマーク問題の直感的な拡張を解決できることを示しています。
https://github.com/rotmanmi/Energy-Regularized-RNN で実装を共有しています。

要約(オリジナル)

We consider a Multi-Armed Bandit problem in which the rewards are non-stationary and are dependent on past actions and potentially on past contexts. At the heart of our method, we employ a recurrent neural network, which models these sequences. In order to balance between exploration and exploitation, we present an energy minimization term that prevents the neural network from becoming too confident in support of a certain action. This term provably limits the gap between the maximal and minimal probabilities assigned by the network. In a diverse set of experiments, we demonstrate that our method is at least as effective as methods suggested to solve the sub-problem of Rotting Bandits, and can solve intuitive extensions of various benchmark problems. We share our implementation at https://github.com/rotmanmi/Energy-Regularized-RNN.

arxiv情報

著者 Michael Rotman,Lior Wolf
発行日 2023-03-28 15:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク