要約
本論文では、バンディットフィードバックを持つ確率的環境における逐次的な意思決定のためのモデル選択について考察する。モデル選択は後悔バランスによって行われるが、このテーマに関する最近の文献とは異なり、我々はベース学習者についての後悔保証の候補のような事前知識を仮定せず、代わりに、データ駆動的にこれらの量を明らかにする。そのため、メタ学習者は、(期待される後悔とは対照的に)手元の学習環境に対して各ベース学習者が被る現実の後悔を活用し、そのような後悔の中から最も良いものを選び出すことができる。我々は、このより野心的な後悔の概念で動作する2つのモデル選択アルゴリズムを設計し、後悔バランシングによるモデル選択保証を証明するほか、後悔の境界候補ではなく、実際の後悔を扱うことによる説得力のある実用上の利点を実験的に証明する。
要約(オリジナル)
We consider model selection for sequential decision making in stochastic environments with bandit feedback, where a meta-learner has at its disposal a pool of base learners, and decides on the fly which action to take based on the policies recommended by each base learner. Model selection is performed by regret balancing but, unlike the recent literature on this subject, we do not assume any prior knowledge about the base learners like candidate regret guarantees; instead, we uncover these quantities in a data-driven manner. The meta-learner is therefore able to leverage the realized regret incurred by each base learner for the learning environment at hand (as opposed to the expected regret), and single out the best such regret. We design two model selection algorithms operating with this more ambitious notion of regret and, besides proving model selection guarantees via regret balancing, we experimentally demonstrate the compelling practical benefits of dealing with actual regrets instead of candidate regret bounds.
arxiv情報
| 著者 | Aldo Pacchiano,Christoph Dann,Claudio Gentile |
| 発行日 | 2023-06-05 13:43:34+00:00 |
| arxivサイト | arxiv_id(pdf) |