No-Regret Linear Bandits under Gap-Adjusted Misspecification


この研究は、ギャップ調整された誤った仕様の新しい概念の下で線形バンディットを研究しており、Liu らの研究を拡張したものです。
基礎となる報酬関数が線形でない場合、既存の線形バンディットの作業は通常、最良の線形近似の超ノルム誤差を測定する均一な誤指定パラメータ $\epsilon$ に依存します。
これにより、$\epsilon > 0$ の場合は必ず線形リリベントが避けられなくなります。
我々は、各入力 $x$ での近似誤差が $x$ での準最適性ギャップに比例することのみを必要とする、より自然な仕様ミスのモデルを提案します。
まったく驚くべきことに、実現可能なケース向けに設計された古典的な LinUCB アルゴリズムは、パラメータ $\rho$ が $O(1/(d \sqrt
{\log T}))$。
これにより、問題に対して最適に近い $O(\sqrt{T})$ リグレスが達成されます。最もよく知られているリグレスは、時間軸 $T$ 内でほぼ線形です。
我々は、ギャップ調整された誤仕様パラメータ $\rho = O(1/\sqrt{d})$ が $T$ に対応しない新しい段階的消去ベースのアルゴリズムを提示することで、このフロンティアをさらに前進させます。
このアルゴリズムは最適な $O(\sqrt{T})$ リグレスを達成し、展開効率が高く、$\log T$ バッチの探索のみが必要です。
また、一定の準最適性ギャップが存在する場合には、適応的な $O(\log T)$ 後悔を享受します。


This work studies linear bandits under a new notion of gap-adjusted misspecification and is an extension of Liu et al. (2023). When the underlying reward function is not linear, existing linear bandits work usually relies on a uniform misspecification parameter $\epsilon$ that measures the sup-norm error of the best linear approximation. This results in an unavoidable linear regret whenever $\epsilon > 0$. We propose a more natural model of misspecification which only requires the approximation error at each input $x$ to be proportional to the suboptimality gap at $x$. It captures the intuition that, for optimization problems, near-optimal regions should matter more and we can tolerate larger approximation errors in suboptimal regions. Quite surprisingly, we show that the classical LinUCB algorithm — designed for the realizable case — is automatically robust against such $\rho$-gap-adjusted misspecification with parameter $\rho$ diminishing at $O(1/(d \sqrt{\log T}))$. It achieves a near-optimal $O(\sqrt{T})$ regret for problems that the best-known regret is almost linear in time horizon $T$. We further advance this frontier by presenting a novel phased elimination-based algorithm whose gap-adjusted misspecification parameter $\rho = O(1/\sqrt{d})$ does not scale with $T$. This algorithm attains optimal $O(\sqrt{T})$ regret and is deployment-efficient, requiring only $\log T$ batches of exploration. It also enjoys an adaptive $O(\log T)$ regret when a constant suboptimality gap exists. Technically, our proof relies on a novel self-bounding argument that bounds the part of the regret due to misspecification by the regret itself, and a new inductive lemma that limits the misspecification error within the suboptimality gap for all valid actions in each batch selected by G-optimal design.


著者 Chong Liu,Dan Qiao,Ming Yin,Ilija Bogunovic,Yu-Xiang Wang
発行日 2025-01-09 16:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク