Representative Arm Identification: A fixed confidence approach to identify cluster representatives

要約

我々は、マルチアームバンディット(MAB)フレームワークにおける代表的なアーム識別(RAI)問題を研究します。ここでは、未知の報酬分布に関連付けられたアームのコレクションがあります。
基礎となるインスタンスは、任意の $j > i$ について、クラスター $i$ 内のすべてのアームがクラスター $j$ 内のアームよりも大きな平均報酬を持つように、アームを事前定義されたサイズのクラスターに分割することによって定義されます。
RAI の目標は、アーム プルをできる限り少なくしながら、各クラスターから特定の事前指定数のアームを確実に識別することです。
RAI 問題は、特別なケースとして、上位 $K$ から最良のアームまたは任意の $M$ を特定するなど、よく研究されたいくつかの MAB 問題と、完全なランキングと粗いランキングの両方をカバーします。
まず、この設定で実行可能なアルゴリズムのサンプルの複雑さについて、インスタンスに依存する下限を提供します。
次に、信頼区間の考え方に基づいた 2 つのアルゴリズムを提案し、サンプルの複雑さの確率の高い上限を提供し、下限と順番に一致します。
最後に、合成データセットと現実世界のデータセットの両方で、両方のアルゴリズムと LUCB タイプの代替案を経験的に比較し、ほとんどの場合で提案したスキームの優れたパフォーマンスを実証します。

要約(オリジナル)

We study the representative arm identification (RAI) problem in the multi-armed bandits (MAB) framework, wherein we have a collection of arms, each associated with an unknown reward distribution. An underlying instance is defined by a partitioning of the arms into clusters of predefined sizes, such that for any $j > i$, all arms in cluster $i$ have a larger mean reward than those in cluster $j$. The goal in RAI is to reliably identify a certain prespecified number of arms from each cluster, while using as few arm pulls as possible. The RAI problem covers as special cases several well-studied MAB problems such as identifying the best arm or any $M$ out of the top $K$, as well as both full and coarse ranking. We start by providing an instance-dependent lower bound on the sample complexity of any feasible algorithm for this setting. We then propose two algorithms, based on the idea of confidence intervals, and provide high probability upper bounds on their sample complexity, which orderwise match the lower bound. Finally, we do an empirical comparison of both algorithms along with an LUCB-type alternative on both synthetic and real-world datasets, and demonstrate the superior performance of our proposed schemes in most cases.

arxiv情報

著者 Sarvesh Gharat,Aniket Yadav,Nikhil Karamchandani,Jayakrishnan Nair
発行日 2024-08-26 11:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.PR, stat.ML パーマリンク