要約
動的価格設定モデルでは、多くの場合、$\textbf{stream}$ の顧客インタラクションが連続的に発生し、顧客の評価が個別に導かれると仮定します。
ただし、このモデルは、追加ユニットごとに顧客の限界効用が減少するという限界効用逓減の法則という重要な側面を見落としているため、現実世界を完全に反映しているわけではありません。
これにより、評価分布が下位側にシフトし、ストリーム モデルでは捉えられなくなります。
これは、プールベースのモデルを研究する動機になります。このモデルでは、$\textbf{pool}$ の顧客が独占販売者と繰り返しやり取りし、各顧客の評価が割引関数に従って購入回数に応じて減少します。
特に、割引関数が一定の場合、プール モデルはストリーム モデルを復元します。
私たちは、購入が行われると顧客の評価がゼロになる、最も基本的な特殊なケースに焦点を当てます。
$k$ の価格を前提として、非適応型ポリシーの中で最適である $1/k$ の競争率を達成する、非適応的で詳細のない (つまり、評価を「知らない」) ポリシーを提示します。
さらに、新しいバイアス除去手法に基づいて、$\tilde O(k^{2/3} n^{2/3})$ リグロングを伴う適応型学習後獲得ポリシーを提案します。
要約(オリジナル)
Dynamic pricing models often posit that a $\textbf{stream}$ of customer interactions occur sequentially, where customers’ valuations are drawn independently. However, this model is not entirely reflective of the real world, as it overlooks a critical aspect, the law of diminishing marginal utility, which states that a customer’s marginal utility from each additional unit declines. This causes the valuation distribution to shift towards the lower end, which is not captured by the stream model. This motivates us to study a pool-based model, where a $\textbf{pool}$ of customers repeatedly interacts with a monopolist seller, each of whose valuation diminishes in the number of purchases made according to a discount function. In particular, when the discount function is constant, our pool model recovers the stream model. We focus on the most fundamental special case, where a customer’s valuation becomes zero once a purchase is made. Given $k$ prices, we present a non-adaptive, detail-free (i.e., does not ‘know’ the valuations) policy that achieves a $1/k$ competitive ratio, which is optimal among non-adaptive policies. Furthermore, based on a novel debiasing technique, we propose an adaptive learn-then-earn policy with a $\tilde O(k^{2/3} n^{2/3})$ regret.
arxiv情報
著者 | Titing Cui,Su Jia,Thomas Lavastida |
発行日 | 2024-06-07 16:09:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google