要約
腕の特徴がスパースパラメータの内積を通じて報酬に影響を与える、スパースコンテキストバンディット問題を検討します。
最近の研究では、貪欲なアーム選択ポリシーに基づいてスパースに依存しないアルゴリズムが開発されました。
ただし、これらのアルゴリズムの分析では、貪欲に選択されたサンプルが十分に多様であることを保証するために、アームの特徴分布に関する強い仮定が必要です。
最も一般的な仮定の 1 つである緩和対称性は、分布に近似的な原点対称性を課すため、原点非対称性をサポートする分布を許可できません。
この論文では、貪欲アルゴリズムが 2 つの側面からより広範囲のアーム特徴分布に適用できることを示します。
まず、貪欲に適用可能なコンポーネントを含む混合分布も貪欲に適用可能であることを示します。
第二に、サンプルの多様性が保証される混合ガウス分布、離散分布、動径分布に関連する新しい分布クラスを提案します。
提案されたクラスは、原点非対称サポートを使用して分布を記述することができ、最初のクレームと併せて、非常に広範囲のアーム特徴分布に対する貪欲なポリシーの理論的保証を提供します。
要約(オリジナル)
We consider the sparse contextual bandit problem where arm feature affects reward through the inner product of sparse parameters. Recent studies have developed sparsity-agnostic algorithms based on the greedy arm selection policy. However, the analysis of these algorithms requires strong assumptions on the arm feature distribution to ensure that the greedily selected samples are sufficiently diverse; One of the most common assumptions, relaxed symmetry, imposes approximate origin-symmetry on the distribution, which cannot allow distributions that has origin-asymmetric support. In this paper, we show that the greedy algorithm is applicable to a wider range of the arm feature distributions from two aspects. Firstly, we show that a mixture distribution that has a greedy-applicable component is also greedy-applicable. Second, we propose new distribution classes, related to Gaussian mixture, discrete, and radial distribution, for which the sample diversity is guaranteed. The proposed classes can describe distributions with origin-asymmetric support and, in conjunction with the first claim, provide theoretical guarantees of the greedy policy for a very wide range of the arm feature distributions.
arxiv情報
著者 | Koji Ichikawa,Shinji Ito,Daisuke Hatano,Hanna Sumita,Takuro Fukunaga,Naonori Kakimura,Ken-ichi Kawarabayashi |
発行日 | 2023-12-19 18:35:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google