An Online Learning Theory of Brokerage

要約

私たちはオンライン学習の観点からトレーダー間の仲介を調査します。
どのラウンド $t$ でも、2 人のトレーダーが個人的な評価額を持って到着し、ブローカーが取引価格を提案します。
オンライン学習文献で既に研究されている他の二国間貿易問題とは異なり、ここでは指定された買い手と売り手の役割が存在しない場合に焦点を当てます。つまり、各トレーダーは商品の現在の価格に応じて売買を試みます。
エージェントの評価は個別に行われると仮定します。
固定だが未知のディストリビューションから。
分布が、ある定数 $M$ によって境界付けられる密度を許容する場合、任意の時間軸 $T$ に対して、 $\bullet$ エージェントの評価が各対話後に明らかになった場合、後悔を達成するアルゴリズムを提供します $M \log T
$ と、定数係数までのこのレートが最適であることを示します。
$\bullet$ 各対話後に提案された価格で売りたい、または買いたいという意思のみが明らかになった場合、後悔 $\sqrt{M T}$ を達成するアルゴリズムを提供し、このレートが一定の係数まで最適であることを示します。
最後に、有界密度の仮定を削除すると、最初のケースでは最適レートが $\sqrt{T}$ まで低下し、2 番目のケースでは問題が学習不能になることがわかります。

要約(オリジナル)

We investigate brokerage between traders from an online learning perspective. At any round $t$, two traders arrive with their private valuations, and the broker proposes a trading price. Unlike other bilateral trade problems already studied in the online learning literature, we focus on the case where there are no designated buyer and seller roles: each trader will attempt to either buy or sell depending on the current price of the good. We assume the agents’ valuations are drawn i.i.d. from a fixed but unknown distribution. If the distribution admits a density bounded by some constant $M$, then, for any time horizon $T$: $\bullet$ If the agents’ valuations are revealed after each interaction, we provide an algorithm achieving regret $M \log T$ and show this rate is optimal, up to constant factors. $\bullet$ If only their willingness to sell or buy at the proposed price is revealed after each interaction, we provide an algorithm achieving regret $\sqrt{M T}$ and show this rate is optimal, up to constant factors. Finally, if we drop the bounded density assumption, we show that the optimal rate degrades to $\sqrt{T}$ in the first case, and the problem becomes unlearnable in the second.

arxiv情報

著者 Nataša Bolić,Tommaso Cesari,Roberto Colomboni
発行日 2023-10-18 17:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク