要約
私たちは、インセンティブ付きバンディット探索の研究を進めています。この研究では、アームの選択は推奨とみなされ、ベイジアンインセンティブと互換性がある必要があります。
最近の研究では、特定の独立性の仮定の下で、十分な初期サンプルを収集した後、一般的なトンプソン サンプリング アルゴリズムがインセンティブと互換性を持つようになることが示されています。
この結果のアナログを線形バンディットに対して示します。ここでは、事前分布の独立性が自然な凸状条件に置き換えられます。
これにより、高次元のアクション空間で効率的かつ後悔を最適化したインセンティブ付き探索の可能性が開かれます。
セミバンディット モデルでは、初期データ収集のトンプソン前のサンプリング段階でのサンプルの複雑さも改善しました。
要約(オリジナル)
We advance the study of incentivized bandit exploration, in which arm choices are viewed as recommendations and are required to be Bayesian incentive compatible. Recent work has shown under certain independence assumptions that after collecting enough initial samples, the popular Thompson sampling algorithm becomes incentive compatible. We give an analog of this result for linear bandits, where the independence of the prior is replaced by a natural convexity condition. This opens up the possibility of efficient and regret-optimal incentivized exploration in high-dimensional action spaces. In the semibandit model, we also improve the sample complexity for the pre-Thompson sampling phase of initial data collection.
arxiv情報
著者 | Mark Sellke |
発行日 | 2024-09-24 16:02:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google