要約
長い一連の研究は、min-max プログラムによる逐次意思決定における後悔の最小化のサンプルの複雑さを特徴付けます。
対応するサドルポイント ゲームでは、大きな後悔につながる混乱を招くモデルを選択する敵対的な最大プレイヤーに対して、最小プレイヤーがサンプリング分布を最適化します。
このアイデアの最新の具体例は、決定推定係数 (DEC) です。これは、構造化バンディットと強化学習において、最悪の場合に予想されるリアクションにほぼ厳密な下限と上限を与えることが示されています。
オフセット DEC を信頼半径で再パラメータ化し、対応する min-max プログラムを解くことにより、E2D (Estimation-To-Decisions) アルゴリズムの任意の変形を導き出します。
重要なのは、このアルゴリズムは、分析ではなくオンラインで探索と活用のトレードオフを最適化することです。
私たちの定式化は、有限モデルクラスと線形フィードバックモデルの実用的なアルゴリズムにつながります。
さらに、情報比、デカップリング係数、PAC-DEC との関連性を指摘し、簡単な例で E2D のパフォーマンスを数値的に評価します。
要約(オリジナル)
A long line of works characterizes the sample complexity of regret minimization in sequential decision-making by min-max programs. In the corresponding saddle-point game, the min-player optimizes the sampling distribution against an adversarial max-player that chooses confusing models leading to large regret. The most recent instantiation of this idea is the decision-estimation coefficient (DEC), which was shown to provide nearly tight lower and upper bounds on the worst-case expected regret in structured bandits and reinforcement learning. By re-parametrizing the offset DEC with the confidence radius and solving the corresponding min-max program, we derive an anytime variant of the Estimation-To-Decisions (E2D) algorithm. Importantly, the algorithm optimizes the exploration-exploitation trade-off online instead of via the analysis. Our formulation leads to a practical algorithm for finite model classes and linear feedback models. We further point out connections to the information ratio, decoupling coefficient and PAC-DEC, and numerically evaluate the performance of E2D on simple examples.
arxiv情報
著者 | Johannes Kirschner,Seyed Alireza Bakhtiari,Kushagra Chandak,Volodymyr Tkachuk,Csaba Szepesvári |
発行日 | 2024-03-15 15:09:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google