Stochastically Constrained Best Arm Identification with Thompson Sampling

要約

複数のパフォーマンス測定に関連付けられたアームの数が有限である場合、確率的制約が存在する場合の最適なアームの識別の問題を検討します。
目標は、残りの尺度に対する制約に従って目的の尺度を最適化するアームを特定することです。
それを解決する手段として、トンプソン サンプリング (TS) という一般的なアイデアを検討します。
私たちの知る限り、これは TS をこの問題に拡張する最初の試みです。
TS ベースのサンプリング アルゴリズムを設計し、事後収束率における漸近的な最適性を確立し、数値例を使用してその優れたパフォーマンスを実証します。

要約(オリジナル)

We consider the problem of the best arm identification in the presence of stochastic constraints, where there is a finite number of arms associated with multiple performance measures. The goal is to identify the arm that optimizes the objective measure subject to constraints on the remaining measures. We will explore the popular idea of Thompson sampling (TS) as a means to solve it. To the best of our knowledge, it is the first attempt to extend TS to this problem. We will design a TS-based sampling algorithm, establish its asymptotic optimality in the rate of posterior convergence, and demonstrate its superior performance using numerical examples.

arxiv情報

著者 Le Yang,Siyang Gao,Cheng Li,Yi Wang
発行日 2025-01-07 15:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク