From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals


動的価格設定の問題は、 \textbf{stream} モデルに基づいて広範囲に研究されています。つまり、顧客の流れが順番に到着し、それぞれの評価が独立して同一に分散されます。
多くのシナリオでは、高評価の顧客は早期に購入して市場から離れる傾向があり、その結果、評価分布に \emph{シフト}が生じます。
このように動機づけられて、$n$ の非戦略的単位需要の顧客の \textbf{pool} が販売者と繰り返し対話するモデルを検討します。
各顧客は独立したポアソンプロセスに従って価格を断続的に監視し、観察された価格が \emph{private} の評価額よりも低い場合に購入し、その後永久に市場から退出します。
我々は、任意の $k$ 価格のセットが与えられた場合に、最適収益の $1/k$ 部分を保証する非適応政策を効率的に計算する minimax \emph{optimal} アルゴリズムを提示します。
さらに、新しい \emph{偏り解消} アプローチに基づいた適応型 \emph{学習してから獲得する} ポリシーを提示し、$\チルダ O(kn^{3/4})$ 後悔限界を証明します。
マルチンゲール濃度不等式を使用して $\tilde O(k^{3/4} n^{3/4})$ への限界をさらに改善します。


The dynamic pricing problem has been extensively studied under the \textbf{stream} model: A stream of customers arrives sequentially, each with an independently and identically distributed valuation. However, this formulation is not entirely reflective of the real world. In many scenarios, high-valuation customers tend to make purchases earlier and leave the market, leading to a \emph{shift} in the valuation distribution. Thus motivated, we consider a model where a \textbf{pool} of $n$ non-strategic unit-demand customers interact repeatedly with the seller. Each customer monitors the price intermittently according to an independent Poisson process and makes a purchase if the observed price is lower than her \emph{private} valuation, whereupon she leaves the market permanently. We present a minimax \emph{optimal} algorithm that efficiently computes a non-adaptive policy which guarantees a $1/k$ fraction of the optimal revenue, given any set of $k$ prices. Moreover, we present an adaptive \emph{learn-then-earn} policy based on a novel \emph{debiasing} approach, and prove an $\tilde O(kn^{3/4})$ regret bound. We further improve the bound to $\tilde O(k^{3/4} n^{3/4})$ using martingale concentration inequalities.


著者 Titing Cui,Su Jia,Thomas Lavastida
発行日 2023-10-30 01:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.GT, cs.LG パーマリンク