Representative Arm Identification: A fixed confidence approach to identify cluster representatives


基礎となるインスタンスは、任意の $j > i$ について、クラスター $i$ 内のすべてのアームがクラスター $j$ 内のアームよりも大きな平均報酬を持つように、アームを事前定義されたサイズのクラスターに分割することによって定義されます。
RAI の目標は、アーム プルをできる限り少なくしながら、各クラスターから特定の事前指定数のアームを確実に識別することです。
RAI 問題は、特別なケースとして、上位 $K$ から最良のアームまたは任意の $M$ を特定するなど、よく研究されたいくつかの MAB 問題と、完全なランキングと粗いランキングの両方をカバーします。
次に、信頼区間の考え方に基づいた 2 つのアルゴリズムを提案し、サンプルの複雑さの確率の高い上限を提供し、下限と順番に一致します。
最後に、合成データセットと現実世界のデータセットの両方で、両方のアルゴリズムと LUCB タイプの代替案を経験的に比較し、ほとんどの場合で提案したスキームの優れたパフォーマンスを実証します。


We study the representative arm identification (RAI) problem in the multi-armed bandits (MAB) framework, wherein we have a collection of arms, each associated with an unknown reward distribution. An underlying instance is defined by a partitioning of the arms into clusters of predefined sizes, such that for any $j > i$, all arms in cluster $i$ have a larger mean reward than those in cluster $j$. The goal in RAI is to reliably identify a certain prespecified number of arms from each cluster, while using as few arm pulls as possible. The RAI problem covers as special cases several well-studied MAB problems such as identifying the best arm or any $M$ out of the top $K$, as well as both full and coarse ranking. We start by providing an instance-dependent lower bound on the sample complexity of any feasible algorithm for this setting. We then propose two algorithms, based on the idea of confidence intervals, and provide high probability upper bounds on their sample complexity, which orderwise match the lower bound. Finally, we do an empirical comparison of both algorithms along with an LUCB-type alternative on both synthetic and real-world datasets, and demonstrate the superior performance of our proposed schemes in most cases.


著者 Sarvesh Gharat,Aniket Yadav,Nikhil Karamchandani,Jayakrishnan Nair
発行日 2024-08-26 11:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, math.PR, stat.ML パーマリンク