要約
私たちは、データに適応し、インスタンス最適なリグレットを達成する、つまり、フォローザのパフォーマンスと比較してすべての入力シーケンスで同時に競合するリグレットを実現する、「Switching via Monotone Adapted Regret Traces (SMART)」というタイトルのオンライン学習アルゴリズムを考案しました。
-リーダー (FTL) ポリシーと、その他の入力ポリシーの最悪の場合の保証。
任意の入力シーケンスに対する SMART ポリシーのリグロングは、次のいずれか小さい方の乗算係数 $e/(e-1) \約 1.58$ 以内であることを示します。
指定された最悪の場合のポリシーによって保証される後悔の上限。
これは、生成方法に関係なく、すべての入力シーケンスに対して保証が適用されるため、一般的な「両方の利点を考慮した」限界よりも厳密に強力な保証を意味します。
SMART は、FTL の再生から開始され、時間範囲内で最大 1 回だけ最悪の場合のアルゴリズムに切り替わるため、実装が簡単です。
私たちのアプローチと結果は、インスタンス最適化オンライン学習の運用削減から、スキーレンタル問題の競合分析に至るまで続きます。
競争率の上限を基本的な下限で補完すると、すべての入力シーケンスにわたって、FTL とミニマックス最適化ポリシーによって達成される最小リファンドの 1.43 ドル分よりも優れたアルゴリズムは存在しないことがわかります。
また、FTL と「小損失」アルゴリズムを組み合わせて、FTL のリグレットと小損失リグロング限界の間のインスタンスの最適性を実現する SMART の修正も紹介します。
要約(オリジナル)
We devise an online learning algorithm — titled Switching via Monotone Adapted Regret Traces (SMART) — that adapts to the data and achieves regret that is instance optimal, i.e., simultaneously competitive on every input sequence compared to the performance of the follow-the-leader (FTL) policy and the worst case guarantee of any other input policy. We show that the regret of the SMART policy on any input sequence is within a multiplicative factor $e/(e-1) \approx 1.58$ of the smaller of: 1) the regret obtained by FTL on the sequence, and 2) the upper bound on regret guaranteed by the given worst-case policy. This implies a strictly stronger guarantee than typical `best-of-both-worlds’ bounds as the guarantee holds for every input sequence regardless of how it is generated. SMART is simple to implement as it begins by playing FTL and switches at most once during the time horizon to the worst-case algorithm. Our approach and results follow from an operational reduction of instance optimal online learning to competitive analysis for the ski-rental problem. We complement our competitive ratio upper bounds with a fundamental lower bound showing that over all input sequences, no algorithm can get better than a $1.43$-fraction of the minimum regret achieved by FTL and the minimax-optimal policy. We also present a modification of SMART that combines FTL with a “small-loss’ algorithm to achieve instance optimality between the regret of FTL and the small loss regret bound.
arxiv情報
著者 | Siddhartha Banerjee,Alankrita Bhatt,Christina Lee Yu |
発行日 | 2024-02-27 17:55:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google