要約
多くの反復的なオークション設定では、参加者は勝つ頻度だけでなく、賞金が時間の経過とともにどのように分配されるかにも関心を持ちます。
この問題は、オンライン小売販売やコンピューティング サービスなど、混雑した需要を回避することが重要なさまざまな実際の領域や、長期間にわたる継続的な可視性が必要な広告キャンペーンで発生します。
我々は、この現象の単純なモデルを導入し、勝利の価値が最後の勝利からの時間の凹関数である予算付きオークションとしてモデル化します。
これは、一定の勝利数に対して、時間の経過に伴う均等な間隔が最適であることを意味します。
また、モデルと結果を、すべての勝利が「コンバージョン」(実際の利益の実現) につながるわけではなく、コンバージョンの確率がコンテキストに依存する場合にも拡張します。
目標は、ただ勝つことではなく、コンバージョンを最大化して均等に配置することです。
私たちはセカンドプライス オークションでこの設定に最適なポリシーを研究し、ベイジアン オンライン設定で最適な入札ポリシーに対して後悔が少ない学習アルゴリズムを入札者に提供します。
私たちの主な成果は、$\tilde O(\sqrt T)$ の後悔を達成する、計算効率の高いオンライン学習アルゴリズムです。
これは、予期される予算制約を伴う無限水平マルコフ決定プロセス (MDP) が、たとえその MDP を非常に少数の州に限定した場合であっても、本質的に我々の問題と同等であることを示すことによって達成されます。
このアルゴリズムは、コンテキストとシステムの状態 (最後の落札 (またはコンバージョン) からの経過時間) に応じて入札を選択する入札ポリシーを学習することで、低後悔を実現します。
我々は、状態に依存しない戦略は、コンバージョンの不確実性がない場合でも直線的な後悔を引き起こすことを示します。
これを補うために、線形リグレスを持ちながらも最適な報酬への $(1-\frac 1 e)$ 近似を達成する、状態に依存しない戦略が存在することを示します。
要約(オリジナル)
In many repeated auction settings, participants care not only about how frequently they win but also how their winnings are distributed over time. This problem arises in various practical domains where avoiding congested demand is crucial, such as online retail sales and compute services, as well as in advertising campaigns that require sustained visibility over time. We introduce a simple model of this phenomenon, modeling it as a budgeted auction where the value of a win is a concave function of the time since the last win. This implies that for a given number of wins, even spacing over time is optimal. We also extend our model and results to the case when not all wins result in ‘conversions’ (realization of actual gains), and the probability of conversion depends on a context. The goal is to maximize and evenly space conversions rather than just wins. We study the optimal policies for this setting in second-price auctions and offer learning algorithms for the bidders that achieve low regret against the optimal bidding policy in a Bayesian online setting. Our main result is a computationally efficient online learning algorithm that achieves $\tilde O(\sqrt T)$ regret. We achieve this by showing that an infinite-horizon Markov decision process (MDP) with the budget constraint in expectation is essentially equivalent to our problem, even when limiting that MDP to a very small number of states. The algorithm achieves low regret by learning a bidding policy that chooses bids as a function of the context and the system’s state, which will be the time elapsed since the last win (or conversion). We show that state-independent strategies incur linear regret even without uncertainty of conversions. We complement this by showing that there are state-independent strategies that, while still having linear regret, achieve a $(1-\frac 1 e)$ approximation to the optimal reward.
arxiv情報
著者 | Giannis Fikioris,Robert Kleinberg,Yoav Kolumbus,Raunak Kumar,Yishay Mansour,Éva Tardos |
発行日 | 2024-11-07 16:31:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google