要約
バンディットフィードバックを備えた確率的環境での逐次意思決定のためのモデル選択を検討します。この環境では、メタ学習者が自由に使える基本学習者のプールを持ち、各基本学習者が推奨するポリシーに基づいてどのアクションを実行するかをその場で決定します。
モデルの選択は後悔バランシングによって実行されますが、このテーマに関する最近の文献とは異なり、候補の後悔保証のような基本学習器に関する事前知識は想定されていません。
代わりに、データ駆動型の方法でこれらの量を明らかにします。
したがって、メタ学習者は、(予想される後悔ではなく)手元の学習環境に対して各基本学習者が経験した後悔を活用し、そのような最良の後悔を選び出すことができます。
私たちは、このより野心的なリグレス概念に基づいて動作する 2 つのモデル選択アルゴリズムを設計し、リグレス バランシングによるモデル選択の保証を証明することに加えて、候補リグレス限界ではなく実際のリグアングに対処することの説得力のある実際的な利点を実験的に実証します。
要約(オリジナル)
We consider model selection for sequential decision making in stochastic environments with bandit feedback, where a meta-learner has at its disposal a pool of base learners, and decides on the fly which action to take based on the policies recommended by each base learner. Model selection is performed by regret balancing but, unlike the recent literature on this subject, we do not assume any prior knowledge about the base learners like candidate regret guarantees; instead, we uncover these quantities in a data-driven manner. The meta-learner is therefore able to leverage the realized regret incurred by each base learner for the learning environment at hand (as opposed to the expected regret), and single out the best such regret. We design two model selection algorithms operating with this more ambitious notion of regret and, besides proving model selection guarantees via regret balancing, we experimentally demonstrate the compelling practical benefits of dealing with actual regrets instead of candidate regret bounds.
arxiv情報
著者 | Aldo Pacchiano,Christoph Dann,Claudio Gentile |
発行日 | 2024-01-23 13:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google