要約
私たちは、リソースの制約の下でオンラインの意思決定の問題を研究しています。ここでは、報酬とコスト機能の両方が、時間の経過とともに敵対的に変化する可能性のある分布から引き出されます。
2つの標準設定に焦点を当てます。$(i)$オンラインリソース割り当ては、アクション選択の前に報酬とコストが観察される場合、およびアクション選択後に観察されるリソースの制約を備えた$(ii)$オンライン学習、完全なフィードバックまたはバンディットフィードバックです。
報酬とコスト分布が時間の経過とともにarbitrarily意的に変化する可能性がある場合、これらの設定でサブリンの後悔を達成することは不可能であることはよく知られています。
この課題に対処するために、学習者が支出計画に導かれるフレームワークを分析します。これは、ラウンド全体で予想されるリソースの使用を規定するシーケンスです。
支出計画に続くベースラインに関してサブリンの後悔を達成する一般的な(プライマル)デュアル方法を設計します。
重要なことに、支出計画がラウンド全体で予算のバランスの取れた分布を保証すると、アルゴリズムのパフォーマンスが向上します。
さらに、支出計画が非常に不均衡な最悪のシナリオを処理するための方法の堅牢なバリアントを提供します。
結論として、規定の支出計画から逸脱するベンチマークと競合する際に、アルゴリズムの後悔を研究します。
要約(オリジナル)
We study online decision making problems under resource constraints, where both reward and cost functions are drawn from distributions that may change adversarially over time. We focus on two canonical settings: $(i)$ online resource allocation where rewards and costs are observed before action selection, and $(ii)$ online learning with resource constraints where they are observed after action selection, under full feedback or bandit feedback. It is well known that achieving sublinear regret in these settings is impossible when reward and cost distributions may change arbitrarily over time. To address this challenge, we analyze a framework in which the learner is guided by a spending plan–a sequence prescribing expected resource usage across rounds. We design general (primal-)dual methods that achieve sublinear regret with respect to baselines that follow the spending plan. Crucially, the performance of our algorithms improves when the spending plan ensures a well-balanced distribution of the budget across rounds. We additionally provide a robust variant of our methods to handle worst-case scenarios where the spending plan is highly imbalanced. To conclude, we study the regret of our algorithms when competing against benchmarks that deviate from the prescribed spending plan.
arxiv情報
著者 | Francesco Emanuele Stradi,Matteo Castiglioni,Alberto Marchesi,Nicola Gatti,Christian Kroer |
発行日 | 2025-06-17 14:48:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google