要約
我々は、効率的なバンディット学習アルゴリズムと強化学習アルゴリズムを統一ベイジアン原則から導き出すことができる、逐次学習問題に対する頻度主義的後悔を最適化するための一般理論を開発します。
私たちは、各ラウンドで「アルゴリズムの信念」を生成し、ベイジアン事後法を使用して意思決定を行うための新しい最適化アプローチを提案します。
「アルゴリズムの信念」(「アルゴリズム情報比」と呼ぶ)を作成するという最適化目標は、アルゴリズムの頻度主義的後悔を効果的に特徴付ける本質的な複雑さの尺度を表します。
私たちの知る限り、これは、一般的かつ最適な方法でベイジアンタイプのアルゴリズムを事前に無料にし、敵対的な設定に適用できるようにする最初の体系的なアプローチです。
さらに、アルゴリズムはシンプルであり、多くの場合、実装が効率的です。
主な応用例として、確率論的、敵対的、非定常環境において「世界最高」の経験的パフォーマンスを達成する、多腕バンディット向けの新しいアルゴリズムを紹介します。
そして、これらの原則が線形バンディット、バンディット凸最適化、強化学習でどのように使用できるかを説明します。
要約(オリジナル)
We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate ‘algorithmic beliefs’ at each round, and use Bayesian posteriors to make decisions. The optimization objective to create ‘algorithmic beliefs,’ which we term ‘Algorithmic Information Ratio,’ represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the ‘best-of-all-worlds’ empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
arxiv情報
著者 | Yunbei Xu,Assaf Zeevi |
発行日 | 2023-12-28 04:53:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google