要約
私たちは、販売者が $N$ の同種データ ポイント (例: あるディストリビューションから抽出された i.i.d.) にアクセスできる、データ価格設定の問題を研究します。
市場には $m$ 種類の買い手が存在し、同じタイプ $i$ の買い手は同じ評価曲線 $v_i:[N]\rightarrow [0,1]$ を持ちます。ここで、$v_i(n)$ は、
$n$ データポイントを持つための値。
演繹的に、売り手は買い手の分布を認識していませんが、収益最適化価格曲線 $p:[N] \rightarrow [0, 1]$ を学習するために、$T$ ラウンドにわたって市場を繰り返すことができます。
このオンライン学習の問題を解決するために、私たちはまず、価格設定曲線を近似するための新しい離散化スキームを開発します。
以前の研究と比較すると、離散化スキームのサイズは近似パラメーターに合わせて適切に調整され、オンライン学習での後悔が軽減されます。
データによって満たされる滑らかさや収穫逓減などの仮定の下では、離散化サイズをさらに縮小できます。
次に、確率的設定と敵対的設定の両方におけるオンライン学習の問題に移ります。
各ラウンドで、売り手は匿名の価格設定曲線 $p_t$ を選択します。
新しい購入者が現れ、ある程度の量のデータを購入することを選択する場合があります。
そして、購入した場合にのみ自分のタイプを明らかにします。
当社のオンライン アルゴリズムは、UCB や FTPL などの古典的なアルゴリズムに基づいて構築されていますが、このフィードバックの非対称性を考慮し、価格曲線の広大な空間に対処するには、新しいアイデアが必要です。
以前に開発された改善された離散化スキームを使用すると、確率的設定で $\tilde{O}(m\sqrt{T})$ リグロングと $\tilde{O}(m^{3/2}\sqrt) を達成できます。
{T})$ 敵対的な設定で後悔しています。
要約(オリジナル)
We study a data pricing problem, where a seller has access to $N$ homogeneous data points (e.g. drawn i.i.d. from some distribution). There are $m$ types of buyers in the market, where buyers of the same type $i$ have the same valuation curve $v_i:[N]\rightarrow [0,1]$, where $v_i(n)$ is the value for having $n$ data points. A priori, the seller is unaware of the distribution of buyers, but can repeat the market for $T$ rounds so as to learn the revenue-optimal pricing curve $p:[N] \rightarrow [0, 1]$. To solve this online learning problem, we first develop novel discretization schemes to approximate any pricing curve. When compared to prior work, the size of our discretization schemes scales gracefully with the approximation parameter, which translates to better regret in online learning. Under assumptions like smoothness and diminishing returns which are satisfied by data, the discretization size can be reduced further. We then turn to the online learning problem, both in the stochastic and adversarial settings. On each round, the seller chooses an anonymous pricing curve $p_t$. A new buyer appears and may choose to purchase some amount of data. She then reveals her type only if she makes a purchase. Our online algorithms build on classical algorithms such as UCB and FTPL, but require novel ideas to account for the asymmetric nature of this feedback and to deal with the vastness of the space of pricing curves. Using the improved discretization schemes previously developed, we are able to achieve $\tilde{O}(m\sqrt{T})$ regret in the stochastic setting and $\tilde{O}(m^{3/2}\sqrt{T})$ regret in the adversarial setting.
arxiv情報
著者 | Keran Chen,Joon Suk Huh,Kirthevasan Kandasamy |
発行日 | 2024-11-04 18:51:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google