Multi-objective Good Arm Identification with Bandit Feedback

要約

マルチオブジェクトを備えた確率的盗賊設定での優れたアーム識別の問題を検討します。各アーム$ i \ in [k] $は、$ \ mathbb {r}^m $で定義された分布$ \ mathcal {d} _i $に関連付けられています。
各ラウンド$ t $について、プレーヤー/アルゴリズムは片方のARM $ i_t $をプルし、$ \ mathcal {d} _ {i_t} $に従ってサンプリングされた$ mensionalベクターフィードバックを受信します。
ターゲットは2倍であり、1つは、定義済みのしきい値$ \ xi_1、\ ldots、\ xi_m $よりも高い片方の腕を見つけています。
サンプルの複雑さが結合したアルゴリズムを提案します。
私たちのバウンドは、$ m = 1 $および$ \ epsilon = 0 $の前の作業で与えられたものと同じであり、$ m> 1 $および$ \ epsilon> 0 $の新しい境界を与えます。
提案されているアルゴリズムは、合成および実際のデータセットの実験の他のベースラインよりも優れた数値性能を達成します。

要約(オリジナル)

We consider a good arm identification problem in a stochastic bandit setting with multi-objectives, where each arm $i\in[K]$ is associated with a distribution $\mathcal{D}_i$ defined over $\mathbb{R}^M$. For each round $t$, the player/algorithm pulls one arm $i_t$ and receives a $M$ dimensional vector feedback sampled according to $\mathcal{D}_{i_t}$. The target is twofold, one is finding one arm whose means are larger than the predefined thresholds $\xi_1,\ldots,\xi_M$ with a confidence bound $\delta$ and an accuracy rate $\epsilon$ with a bounded sample complexity, the other is output $\bot$ to indicate no such arm exists. We propose an algorithm with a sample complexity bound. Our bound is the same as the one given in the previous work when $M=1$ and $\epsilon = 0$, and we give novel bounds for $M > 1$ and $\epsilon > 0$. The proposed algorithm attains better numerical performance than other baselines in the experiments on synthetic and real datasets.

arxiv情報

著者 Xuanke Jiang,Kohei Hatano,Eiji Takimoto
発行日 2025-03-14 14:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク