要約
信頼限界は、予測の不確実性を厳密に定量化するために不可欠なツールです。
これらは、多くの逐次学習および意思決定アルゴリズムの中核コンポーネントであり、より厳しい信頼限界により、より優れた経験的パフォーマンスとより優れたパフォーマンス保証を備えたアルゴリズムが誕生します。
この研究では、マーチンゲール尾部不等式を使用して、逐次カーネル回帰の新しい信頼限界を確立します。
信頼限界は円錐プログラムを解くことで計算できますが、変数の数はサンプル サイズに応じて増加するため、この単純なバージョンはすぐに実用的ではなくなります。
ただし、この円錐プログラムの双対により、厳しい信頼限界を効率的に計算できることを示します。
この設定では、新しい信頼限界が既存の信頼限界よりも常に厳しいことが証明されています。
信頼限界をカーネル バンディット問題に適用したところ、信頼限界が既存の信頼限界と置き換わると、KernelUCB (GP-UCB) アルゴリズムの経験的パフォーマンスが向上し、ワーストケースのパフォーマンス保証と同等の計算コストが得られることがわかりました。
要約(オリジナル)
Confidence bounds are an essential tool for rigorously quantifying the uncertainty of predictions. They are a core component in many sequential learning and decision-making algorithms, with tighter confidence bounds giving rise to algorithms with better empirical performance and better performance guarantees. In this work, we use martingale tail inequalities to establish new confidence bounds for sequential kernel regression. Our confidence bounds can be computed by solving a conic program, although this bare version quickly becomes impractical, because the number of variables grows with the sample size. However, we show that the dual of this conic program allows us to efficiently compute tight confidence bounds. We prove that our new confidence bounds are always tighter than existing ones in this setting. We apply our confidence bounds to kernel bandit problems, and we find that when our confidence bounds replace existing ones, the KernelUCB (GP-UCB) algorithm has better empirical performance, a matching worst-case performance guarantee and comparable computational cost.
arxiv情報
著者 | Hamish Flynn,David Reeb |
発行日 | 2024-11-11 16:50:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google