要約
遅延フィードバックのために同時に追跡できる過去のラウンドを同時に制限する、新しい「容量制約」の下で、忘れられない損失と遅延でオンライン学習を勉強します。
「Clairvoyance」(つまり、遅延期間が各ラウンド前に明らかにされます)および/または「先制」(つまり、以前に選択されたラウンドフィードバックの追跡を停止する能力があります)、私たちは、Minimax dellimed op Crassicalの容量に合わせて、「以前に選択されたラウンドフィードバックの追跡を停止する能力があります)。
暗黙的に無制限の容量を想定します。
私たちのアルゴリズムは、すべての容量レベルで最小限の後悔を達成し、パフォーマンスは最適ではない容量の下で優雅に分解されます。
$ k $アクションと合計遅延$ d $ $ d $ over $ t $ rounds、clairvoyance、想定容量$ c = \ omega(\ log(t))$を想定して、$ \ widetilde {\ theta}(\ sqrt {tk + dk/c + d \ log(k)})
$ \ widetilde {\ theta}(\ sqrt {(d+t)\ log(k)})$ $ for informationフィードバック。
透視性を先制に置き換える場合、既知の最大遅延バウンド$ d _ {\ max} $が必要であり、$ \ smash {\ widetilde {o}(d _ {\ max})} $を後悔に追加します。
固定された遅延$ d $(すなわち、$ d = td $)の場合、ミニマックスの後悔は$ \ theta \ bigl(\ sqrt {tk(1+d/c)+td \ log(k)} \ bigr)$であり、最適な容量は$ \ theta(\ min \ {k/set(k)、d
完全な情報設定であるMinimaxの後悔は、$ \ theta \ bigl(\ sqrt {t(d+1)\ log(k)} \ bigr)$であり、最適な容量は$ \ theta(1)$です。
円依存と固定の遅延のために、パレートで分散したプロキシの遅延とバッチング技術に基づいて、私たちの上限は、新しいスケジューリングポリシーを使用して達成されます。
重要なことに、私たちの仕事は遅れた盗賊、ラベル効率の良い学習、およびオンラインスケジューリングフレームワークを統一し、驚くほど控えめな追跡能力で遅延したフィードバックの下での堅牢なオンライン学習が可能であることを示しています。
要約(オリジナル)
We study online learning with oblivious losses and delays under a novel “capacity constraint” that limits how many past rounds can be tracked simultaneously for delayed feedback. Under “clairvoyance” (i.e., delay durations are revealed upfront each round) and/or “preemptibility” (i.e., we have ability to stop tracking previously chosen round feedback), we establish matching upper and lower bounds (up to logarithmic terms) on achievable regret, characterizing the “optimal capacity” needed to match the minimax rates of classical delayed online learning, which implicitly assume unlimited capacity. Our algorithms achieve minimax-optimal regret across all capacity levels, with performance gracefully degrading under suboptimal capacity. For $K$ actions and total delay $D$ over $T$ rounds, under clairvoyance and assuming capacity $C = \Omega(\log(T))$, we achieve regret $\widetilde{\Theta}(\sqrt{TK + DK/C + D\log(K)})$ for bandits and $\widetilde{\Theta}(\sqrt{(D+T)\log(K)})$ for full-information feedback. When replacing clairvoyance with preemptibility, we require a known maximum delay bound $d_{\max}$, adding $\smash{\widetilde{O}(d_{\max})}$ to the regret. For fixed delays $d$ (i.e., $D=Td$), the minimax regret is $\Theta\bigl(\sqrt{TK(1+d/C)+Td\log(K)}\bigr)$ and the optimal capacity is $\Theta(\min\{K/\log(K),d\}\bigr)$ in the bandit setting, while in the full-information setting, the minimax regret is $\Theta\bigl(\sqrt{T(d+1)\log(K)}\bigr)$ and the optimal capacity is $\Theta(1)$. For round-dependent and fixed delays, our upper bounds are achieved using novel scheduling policies, based on Pareto-distributed proxy delays and batching techniques. Crucially, our work unifies delayed bandits, label-efficient learning, and online scheduling frameworks, demonstrating that robust online learning under delayed feedback is possible with surprisingly modest tracking capacity.
arxiv情報
著者 | Alexander Ryabchenko,Idan Attias,Daniel M. Roy |
発行日 | 2025-03-25 17:20:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google