Safe Linear Bandits over Unknown Polytopes

要約

安全な線形バンディット問題 (SLB) は、アクションの報酬と安全性リスクの確率的バンディット フィードバックの下で、未知の目的と未知のラウンドワイズ制約を持つ線形計画法へのオンライン アプローチです。
我々は、ポリトープに対するSLBの有効性とスムーズな安全コストの間のトレードオフ、および既存の悲観的-楽観的アプローチによって作られた強い仮定を回避する際の積極的な二重楽観的戦略の役割を研究します。
まず、制約の知識が欠如しているため、SLB に固有の難しさを解明します。「簡単な」インスタンスが存在し、そのインスタンスでは次善の極値点に大きな「ギャップ」がありますが、その場合でも SLB メソッドは $\Omega(\sqrt{T
})$ 未知の最適化を任意の精度で解決できないため、後悔または安全違反が発生します。
次に、安全な線形バンディット問題に対する自然な二重楽観的戦略である DOSS を分析します。この戦略は、行動を選択するために報酬と安全性リスクの両方の楽観的な推定を使用します。また、制約や実現可能点の知識が不足しているにもかかわらず、DOSS は同時に緊密な結果を得ることができることを示します。
インスタンス依存の $O(\log^2 T)$ は有効性に関する後悔の限界であり、$\tilde O(\sqrt{T})$ は安全性違反の限界です。
さらに、安全性が有限の精度で要求される場合、違反は $O(\log^2 T) まで改善されます。$ これらの結果は、線形バンディットの新しい二重分析に依存しています。我々は、\algoname は、少なくともノイズの多いバージョンをアクティブにすることによって進行すると主張します。
各ラウンドの $d$ 制約。これにより、「悪い」制約セットがアクティブ化されたラウンドと、「良好な」制約セットがアクティブ化されたラウンドを個別に分析できます。
前者のコストは、線形計画の大域的感度分析に基づいて、そのような各制約セットの準最適性を定量化するギャップの新しい二重概念を開発することによって $O(\log^2 T)$ に制御されます。
後者のコストは、楽観的プレイの解を明示的に分析することによって $O(1)$ に制御されます。

要約(オリジナル)

The safe linear bandit problem (SLB) is an online approach to linear programming with unknown objective and unknown roundwise constraints, under stochastic bandit feedback of rewards and safety risks of actions. We study the tradeoffs between efficacy and smooth safety costs of SLBs over polytopes, and the role of aggressive doubly-optimistic play in avoiding the strong assumptions made by extant pessimistic-optimistic approaches. We first elucidate an inherent hardness in SLBs due the lack of knowledge of constraints: there exist `easy’ instances, for which suboptimal extreme points have large `gaps’, but on which SLB methods must still incur $\Omega(\sqrt{T})$ regret or safety violations, due to an inability to resolve unknown optima to arbitrary precision. We then analyse a natural doubly-optimistic strategy for the safe linear bandit problem, DOSS, which uses optimistic estimates of both reward and safety risks to select actions, and show that despite the lack of knowledge of constraints or feasible points, DOSS simultaneously obtains tight instance-dependent $O(\log^2 T)$ bounds on efficacy regret, and $\tilde O(\sqrt{T})$ bounds on safety violations. Further, when safety is demanded to a finite precision, violations improve to $O(\log^2 T).$ These results rely on a novel dual analysis of linear bandits: we argue that \algoname proceeds by activating noisy versions of at least $d$ constraints in each round, which allows us to separately analyse rounds where a `poor’ set of constraints is activated, and rounds where `good’ sets of constraints are activated. The costs in the former are controlled to $O(\log^2 T)$ by developing new dual notions of gaps, based on global sensitivity analyses of linear programs, that quantify the suboptimality of each such set of constraints. The latter costs are controlled to $O(1)$ by explicitly analysing the solutions of optimistic play.

arxiv情報

著者 Aditya Gangrade,Tianrui Chen,Venkatesh Saligrama
発行日 2024-07-01 15:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク