Balancing optimism and pessimism in offline-to-online learning

要約

確率的有限腕の盗賊問題に焦点を当てた、オフラインからオンラインの学習設定と呼ばれるものを検討します。
オフラインからオンラインの学習では、学習者は、学習者の制御下にない方法で、未知の環境との相互作用から収集されたオフラインデータから始まります。
このデータを考えると、学習者は環境との対話を開始し、より多くのデータを収集して総報酬を最大化するため、初期戦略を徐々に改善します。
この設定の学習者は根本的なジレンマに直面しています。ポリシーが短期間のみ展開されている場合、適切な戦略(多くの感覚で)は、悲観に基づいたより低い信頼境界(LCB)アルゴリズムです。
LCBは、オフラインデータによって十分に「カバー」されているポリシーと効果的に競合できます。
ただし、より長い時間の場合、好ましい戦略は、楽観主義に基づいた高度信頼境界(UCB)アルゴリズムです。
時間が経つにつれて、UCBは、すべてのオンラインアルゴリズムの中で可能な限りほぼ最高のレートで最適なポリシーのパフォーマンスに収束します。
ただし、オフラインからオンラインの学習では、UCBは最初に過度に調査し、LCBと比較して短期的なパフォーマンスが悪化します。
これは、そのポリシーがどれだけ使用されるかを制御しない学習者が、短い視野のためにLCBから始まり、より多くのラウンドが再生されるにつれてUCBのような戦略に徐々に移行することを示唆しています。
この記事では、この遷移がどのように、そしてなぜ起こるべきかを調べます。
私たちの主な結果は、新しいアルゴリズムがいつでもLCBとUCBのほぼ優れたパフォーマンスを発揮することを示しています。
アルゴリズムの背後にあるコアアイデアは広く適用されており、結果がマルチアームの盗賊設定を超えて拡張されると予想しています。

要約(オリジナル)

We consider what we call the offline-to-online learning setting, focusing on stochastic finite-armed bandit problems. In offline-to-online learning, a learner starts with offline data collected from interactions with an unknown environment in a way that is not under the learner’s control. Given this data, the learner begins interacting with the environment, gradually improving its initial strategy as it collects more data to maximize its total reward. The learner in this setting faces a fundamental dilemma: if the policy is deployed for only a short period, a suitable strategy (in a number of senses) is the Lower Confidence Bound (LCB) algorithm, which is based on pessimism. LCB can effectively compete with any policy that is sufficiently ‘covered’ by the offline data. However, for longer time horizons, a preferred strategy is the Upper Confidence Bound (UCB) algorithm, which is based on optimism. Over time, UCB converges to the performance of the optimal policy at a rate that is nearly the best possible among all online algorithms. In offline-to-online learning, however, UCB initially explores excessively, leading to worse short-term performance compared to LCB. This suggests that a learner not in control of how long its policy will be in use should start with LCB for short horizons and gradually transition to a UCB-like strategy as more rounds are played. This article explores how and why this transition should occur. Our main result shows that our new algorithm performs nearly as well as the better of LCB and UCB at any point in time. The core idea behind our algorithm is broadly applicable, and we anticipate that our results will extend beyond the multi-armed bandit setting.

arxiv情報

著者 Flore Sentenac,Ilbin Lee,Csaba Szepesvari
発行日 2025-03-10 16:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク