No-Regret Linear Bandits under Gap-Adjusted Misspecification

要約

この研究は、ギャップ調整された誤った仕様の新しい概念の下で線形バンディットを研究しており、Liu らの研究を拡張したものです。
(2023年)。
基礎となる報酬関数が線形でない場合、既存の線形バンディットの作業は通常、最良の線形近似の超ノルム誤差を測定する均一な誤指定パラメータ $\epsilon$ に依存します。
これにより、$\epsilon > 0$ の場合は必ず線形リリベントが避けられなくなります。
我々は、各入力 $x$ での近似誤差が $x$ での準最適性ギャップに比例することのみを必要とする、より自然な仕様ミスのモデルを提案します。
これは、最適化問題では、最適に近い領域がより重要であるはずであり、最適ではない領域ではより大きな近似誤差を許容できるという直観を捉えています。
まったく驚くべきことに、実現可能なケース向けに設計された古典的な LinUCB アルゴリズムは、パラメータ $\rho$ が $O(1/(d \sqrt
{\log T}))$。
これにより、問題に対して最適に近い $O(\sqrt{T})$ リグレスが達成されます。最もよく知られているリグレスは、時間軸 $T$ 内でほぼ線形です。
我々は、ギャップ調整された誤仕様パラメータ $\rho = O(1/\sqrt{d})$ が $T$ に対応しない新しい段階的消去ベースのアルゴリズムを提示することで、このフロンティアをさらに前進させます。
このアルゴリズムは最適な $O(\sqrt{T})$ リグレスを達成し、展開効率が高く、$\log T$ バッチの探索のみが必要です。
また、一定の準最適性ギャップが存在する場合には、適応的な $O(\log T)$ 後悔を享受します。
技術的には、私たちの証明は、後悔自体による誤った仕様による後悔の部分を制限する新しい自己境界引数と、によって選択された各バッチ内のすべての有効なアクションの準最適性のギャップ内に誤った仕様のエラーを制限する新しい帰納補題に依存しています。
G最適設計。

要約(オリジナル)

This work studies linear bandits under a new notion of gap-adjusted misspecification and is an extension of Liu et al. (2023). When the underlying reward function is not linear, existing linear bandits work usually relies on a uniform misspecification parameter $\epsilon$ that measures the sup-norm error of the best linear approximation. This results in an unavoidable linear regret whenever $\epsilon > 0$. We propose a more natural model of misspecification which only requires the approximation error at each input $x$ to be proportional to the suboptimality gap at $x$. It captures the intuition that, for optimization problems, near-optimal regions should matter more and we can tolerate larger approximation errors in suboptimal regions. Quite surprisingly, we show that the classical LinUCB algorithm — designed for the realizable case — is automatically robust against such $\rho$-gap-adjusted misspecification with parameter $\rho$ diminishing at $O(1/(d \sqrt{\log T}))$. It achieves a near-optimal $O(\sqrt{T})$ regret for problems that the best-known regret is almost linear in time horizon $T$. We further advance this frontier by presenting a novel phased elimination-based algorithm whose gap-adjusted misspecification parameter $\rho = O(1/\sqrt{d})$ does not scale with $T$. This algorithm attains optimal $O(\sqrt{T})$ regret and is deployment-efficient, requiring only $\log T$ batches of exploration. It also enjoys an adaptive $O(\log T)$ regret when a constant suboptimality gap exists. Technically, our proof relies on a novel self-bounding argument that bounds the part of the regret due to misspecification by the regret itself, and a new inductive lemma that limits the misspecification error within the suboptimality gap for all valid actions in each batch selected by G-optimal design.

arxiv情報

著者 Chong Liu,Dan Qiao,Ming Yin,Ilija Bogunovic,Yu-Xiang Wang
発行日 2025-01-09 16:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク