要約
私たちは、企業が未知の需要モデルに従って行動する $T$ の消費者に順次製品を販売する、コンテキスト動的価格設定問題を研究します。
同社は収益を最大化すること、つまりモデルを事前に知っている千里眼に対する後悔を最小限に抑えることを目指している。
需要モデルは一般化線形モデル (GLM) であり、製品と消費者情報をエンコードする $\mathbb R^d$ の確率的特徴ベクトルを可能にします。
まず、最適なリグレス上限は $\sqrt{dT}$ のオーダーであり、対数係数までであり、文献にある既存の上限よりも $\sqrt{d}$ 係数だけ改善されていることを示します。
このより鋭いレートは、信頼限界タイプ (supCB) アルゴリズムと探索後コミット (ETC) アルゴリズムという 2 つのアルゴリズムによって実現されます。
私たちの理論的結果に関する重要な洞察は、ダイナミックプライシングと、慎重な離散化に基づいた多くのアームを伴う状況に応じたマルチアームバンディット問題との間の本質的な関係です。
さらに、ローカル差分プライバシー (LDP) 制約の下でのコンテキストに応じた動的価格設定を研究します。
特に、$d\sqrt{T}/\epsilon$ の対数係数までの最適なリグレス上限を達成する確率的勾配降下法ベースの ETC アルゴリズムを提案します。$\epsilon>0$ はプライバシー パラメーターです。
。
LDP制約がある場合とない場合のリグレス上限には、新たに構築されたミニマックスの下限が伴い、プライバシーのコストをさらに特徴づけます。
動的価格設定における提案されたアルゴリズムの効率と実用的価値を説明するために、オンライン融資に関する広範な数値実験と実際のデータの適用が行われます。
要約(オリジナル)
We study the contextual dynamic pricing problem where a firm sells products to $T$ sequentially arriving consumers that behave according to an unknown demand model. The firm aims to maximize its revenue, i.e. minimize its regret over a clairvoyant that knows the model in advance. The demand model is a generalized linear model (GLM), allowing for a stochastic feature vector in $\mathbb R^d$ that encodes product and consumer information. We first show that the optimal regret upper bound is of order $\sqrt{dT}$, up to a logarithmic factor, improving upon existing upper bounds in the literature by a $\sqrt{d}$ factor. This sharper rate is materialised by two algorithms: a confidence bound-type (supCB) algorithm and an explore-then-commit (ETC) algorithm. A key insight of our theoretical result is an intrinsic connection between dynamic pricing and the contextual multi-armed bandit problem with many arms based on a careful discretization. We further study contextual dynamic pricing under the local differential privacy (LDP) constraints. In particular, we propose a stochastic gradient descent based ETC algorithm that achieves an optimal regret upper bound of order $d\sqrt{T}/\epsilon$, up to a logarithmic factor, where $\epsilon>0$ is the privacy parameter. The regret upper bounds with and without LDP constraints are accompanied by newly constructed minimax lower bounds, which further characterize the cost of privacy. Extensive numerical experiments and a real data application on online lending are conducted to illustrate the efficiency and practical value of the proposed algorithms in dynamic pricing.
arxiv情報
著者 | Zifeng Zhao,Feiyu Jiang,Yi Yu |
発行日 | 2024-06-04 15:44:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google