要約
最近、エージェントがフィードバックを待つことができる時間が限られているため、複数の腕を持ったバンディットの問題が、腕をバッチでサンプリングする必要がある多くの現実のシナリオで発生しています。
このような用途には、生物学的実験やオンライン マーケティングが含まれます。
アームの数が多く、バッチの数が少ない場合、問題はさらに複雑になります。
バッチ化された複数の腕を持つバンディット問題における純粋な探索を検討します。
最適なアームの特定にさまざまな理論的設定の目的を組み込むことができる一般的な線形計画法フレームワークを紹介します。
線形プログラムは、優れた理論的特性を達成できる 2 段階のアルゴリズムにつながります。
我々は数値研究によって、このアルゴリズムが特定の UCB タイプまたはトンプソン サンプリング法と比較して優れたパフォーマンスを備えていることを実証しました。
要約(オリジナル)
Recently multi-armed bandit problem arises in many real-life scenarios where arms must be sampled in batches, due to limited time the agent can wait for the feedback. Such applications include biological experimentation and online marketing. The problem is further complicated when the number of arms is large and the number of batches is small. We consider pure exploration in a batched multi-armed bandit problem. We introduce a general linear programming framework that can incorporate objectives of different theoretical settings in best arm identification. The linear program leads to a two-stage algorithm that can achieve good theoretical properties. We demonstrate by numerical studies that the algorithm also has good performance compared to certain UCB-type or Thompson sampling methods.
arxiv情報
著者 | Shengyu Cao,Simai He,Ruoqing Jiang,Jin Xu,Hongsong Yuan |
発行日 | 2023-12-21 14:16:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google