要約
コンテキストバンディットの行動空間は大きいため、効率的な探索は重要な課題であり、情報なしで探索すると計算効率や統計効率が低下する可能性があります。
幸いなことに、アクションの報酬には相関関係があることが多く、これを利用して効率的に探索することができます。
この研究では、事前にトレーニングされた拡散モデルを使用してそのような相関関係を捕捉します。
これに基づいて拡散トンプソン サンプリング (dTS) を設計します。
dTS については理論的およびアルゴリズム的基盤の両方が開発されており、実証的評価でもその良好なパフォーマンスが示されています。
要約(オリジナル)
Efficient exploration is a key challenge in contextual bandits due to the large size of their action space, where uninformed exploration can result in computational and statistical inefficiencies. Fortunately, the rewards of actions are often correlated and this can be leveraged to explore them efficiently. In this work, we capture such correlations using pre-trained diffusion models; upon which we design diffusion Thompson sampling (dTS). Both theoretical and algorithmic foundations are developed for dTS, and empirical evaluation also shows its favorable performance.
arxiv情報
著者 | Imad Aouali |
発行日 | 2024-02-15 15:48:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google