要約
電力前日市場への電力生産者の戦略的参加を動機として、私たちは、敵対的な反対入札設定に焦点を当てた、繰り返される複数単位の均一価格オークションにおけるオンライン学習の問題を研究します。
この論文の主な貢献は、入札空間の新しいモデリングを導入したことです。
実際、この問題の構造を利用した学習アルゴリズムは、バンディット フィードバックの下で $\tilde{O}(K^{4/3}T^{2/3})$ のリグレットを達成し、限界を超えて改善することを証明しました。
$\tilde{O}(K^{7/4}T^{3/4})$ は以前に文献で入手したものです。
この改善された後悔率は対数項まで厳密です。
電力予備市場から着想を得て、すべての落札価格が明らかになる別のフィードバック モデルをさらに導入します。
このフィードバックは、オークションの結果に応じて、完全情報シナリオと強盗シナリオの間で補間されます。
このフィードバックの下で、私たちが提案するアルゴリズムが $\tilde{O}(K^{5/2}\sqrt{T})$ を達成することを証明します。
要約(オリジナル)
Motivated by the strategic participation of electricity producers in electricity day-ahead market, we study the problem of online learning in repeated multi-unit uniform price auctions focusing on the adversarial opposing bid setting. The main contribution of this paper is the introduction of a new modeling of the bid space. Indeed, we prove that a learning algorithm leveraging the structure of this problem achieves a regret of $\tilde{O}(K^{4/3}T^{2/3})$ under bandit feedback, improving over the bound of $\tilde{O}(K^{7/4}T^{3/4})$ previously obtained in the literature. This improved regret rate is tight up to logarithmic terms. Inspired by electricity reserve markets, we further introduce a different feedback model under which all winning bids are revealed. This feedback interpolates between the full-information and bandit scenarios depending on the auctions’ results. We prove that, under this feedback, the algorithm that we propose achieves regret $\tilde{O}(K^{5/2}\sqrt{T})$.
arxiv情報
著者 | Marius Potfer,Dorian Baudry,Hugo Richard,Vianney Perchet,Cheng Wan |
発行日 | 2025-01-17 13:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google