Wait-Less Offline Tuning and Re-solving for Online Decision Making

要約

オンライン線形計画法 (OLP) は、収益管理とリソース割り当てに幅広い用途が見出されています。
最先端の OLP アルゴリズムは、更新されたリソース情報を組み込んだ線形計画法 (LP) 部分問題を繰り返し解くことにより、低後悔を実現します。
ただし、LP ベースの方法は計算コストが高く、大規模なアプリケーションでは非効率であることがよくあります。
対照的に、最近の一次 OLP アルゴリズムは計算効率が高くなりますが、通常はリグアロング保証が悪化します。
これらの欠点に対処するために、LP ベースと 1 次 OLP 手法の長所を組み合わせた新しいアルゴリズムを提案します。
このアルゴリズムは、事前に定義された頻度 $f$ で定期的に LP 部分問題を再解決し、最新の二重価格を使用してオンラインの意思決定をガイドします。
さらに、LP 再解決間の各間隔で 1 次メソッドが並行して実行され、リソースの消費が平滑化されます。
私たちのアルゴリズムは $\mathscr{O}(\log (T/f) + \sqrt{f})$ リグレットを達成し、一次法の計算効率と、
LP ベースのメソッドの優れた後悔保証。

要約(オリジナル)

Online linear programming (OLP) has found broad applications in revenue management and resource allocation. State-of-the-art OLP algorithms achieve low regret by repeatedly solving linear programming (LP) subproblems that incorporate updated resource information. However, LP-based methods are computationally expensive and often inefficient for large-scale applications. In contrast, recent first-order OLP algorithms are more computationally efficient but typically suffer from worse regret guarantees. To address these shortcomings, we propose a new algorithm that combines the strengths of LP-based and first-order OLP methods. The algorithm re-solves the LP subproblems periodically at a predefined frequency $f$ and uses the latest dual prices to guide online decision-making. In addition, a first-order method runs in parallel during each interval between LP re-solves, smoothing resource consumption. Our algorithm achieves $\mathscr{O}(\log (T/f) + \sqrt{f})$ regret, delivering a ‘wait-less’ online decision-making process that balances the computational efficiency of first-order methods and the superior regret guarantee of LP-based methods.

arxiv情報

著者 Jingruo Sun,Wenzhi Gao,Ellen Vitercik,Yinyu Ye
発行日 2024-12-12 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク