要約
オンライン広告は近年、広告主が大規模かつ高頻度で広告枠の入札を行う、競争が激しく複雑な数十億ドル規模の産業に成長した。その結果、広告主が指定した制約条件下で、広告主のターゲットを最大化するように、入ってくるクエリの入札を決定する効率的な「自動入札」アルゴリズムの必要性が高まっている。この研究では、ますます一般的になっている制約の下で、単一の価値を最大化する広告主に対する効率的なオンラインアルゴリズムを探索する:RoS(Return-on-Spend)である。我々は、全てのクエリを事前に知っている最適アルゴリズムに対する後悔の観点から効率を定量化する。 入力クエリー列がある分布からのi.i.d.サンプルである場合に、指定されたRoS制約を常に尊重しながら、期待値においてほぼ最適な後悔を達成する単純なオンラインアルゴリズムを提案する。また、Balseiro, Lu, and Mirrokni [BLM20]の先行研究と我々の結果を統合し、RoS制約と固定予算制約の両方を尊重しながら、ほぼ最適な後悔を達成する。 我々のアルゴリズムは原始-双対フレームワークに従い、双対更新にオンラインミラー降下(online mirror descent: OMD)を用いる。しかしながら、我々はOMDの非正統的な設定を用いる必要があるため、オンライン学習における敵対的設定のためのOMDの古典的な低レグレット保証はもはや成立しない。それにもかかわらず、我々の場合、そしてより一般的に低レグレット・ダイナミクスがアルゴリズム設計に適用される場合、OMDが遭遇する勾配は敵対的とは程遠いが、アルゴリズムの選択に影響されることがある。この重要な洞察を利用し、我々のOMDセットアップが我々のアルゴリズムの領域で低残念性を達成することを示す。
要約(オリジナル)
Online advertising has recently grown into a highly competitive and complex multi-billion-dollar industry, with advertisers bidding for ad slots at large scales and high frequencies. This has resulted in a growing need for efficient ‘auto-bidding’ algorithms that determine the bids for incoming queries to maximize advertisers’ targets subject to their specified constraints. This work explores efficient online algorithms for a single value-maximizing advertiser under an increasingly popular constraint: Return-on-Spend (RoS). We quantify efficiency in terms of regret relative to the optimal algorithm, which knows all queries a priori. We contribute a simple online algorithm that achieves near-optimal regret in expectation while always respecting the specified RoS constraint when the input sequence of queries are i.i.d. samples from some distribution. We also integrate our results with the previous work of Balseiro, Lu, and Mirrokni [BLM20] to achieve near-optimal regret while respecting both RoS and fixed budget constraints. Our algorithm follows the primal-dual framework and uses online mirror descent (OMD) for the dual updates. However, we need to use a non-canonical setup of OMD, and therefore the classic low-regret guarantee of OMD, which is for the adversarial setting in online learning, no longer holds. Nonetheless, in our case and more generally where low-regret dynamics are applied in algorithm design, the gradients encountered by OMD can be far from adversarial but influenced by our algorithmic choices. We exploit this key insight to show our OMD setup achieves low regret in the realm of our algorithm.
arxiv情報
著者 | Zhe Feng,Swati Padmanabhan,Di Wang |
発行日 | 2023-07-03 05:20:52+00:00 |
arxivサイト | arxiv_id(pdf) |