Bandits with Abstention under Expert Advice

要約

私たちは、バンディットのフィードバックのもと、専門家のアドバイスを受けながら、古典的な予測の問題を研究します。
私たちのモデルは、学習者の遊びからの棄権に対応する 1 つの行動には、すべての試行で報酬も損失もないと仮定しています。
我々は、この仮定を利用して従来の Exp4 アルゴリズムの報酬限界を大幅に改善できる報酬限界を取得する CBA アルゴリズムを提案します。
学習者がプレーを棄権するという選択肢を持っている場合、問題は信頼度評価された予測子の集合として見ることができます。
重要なのは、一般的な信頼度評価予測変数の期待累積報酬の限界に初めて到達したことです。
スペシャリストの特殊なケースでは、新しい報酬上限を達成し、以前の SpecialistExp の上限を大幅に改善しました (棄権を別のアクションとして扱います)。
応用例として、有限計量空間におけるボールの和集合の学習について説明します。
このコンテキスト設定では、CBA の効率的な実装を考案し、コンテキスト数の実行時間を二次関数からほぼ線形に短縮します。
予備実験では、CBA が既存のバンディット アルゴリズムよりも改善されていることが示されています。

要約(オリジナル)

We study the classic problem of prediction with expert advice under bandit feedback. Our model assumes that one action, corresponding to the learner’s abstention from play, has no reward or loss on every trial. We propose the CBA algorithm, which exploits this assumption to obtain reward bounds that can significantly improve those of the classical Exp4 algorithm. We can view our problem as the aggregation of confidence-rated predictors when the learner has the option of abstention from play. Importantly, we are the first to achieve bounds on the expected cumulative reward for general confidence-rated predictors. In the special case of specialists we achieve a novel reward bound, significantly improving previous bounds of SpecialistExp (treating abstention as another action). As an example application, we discuss learning unions of balls in a finite metric space. In this contextual setting, we devise an efficient implementation of CBA, reducing the runtime from quadratic to almost linear in the number of contexts. Preliminary experiments show that CBA improves over existing bandit algorithms.

arxiv情報

著者 Stephen Pasteris,Alberto Rumi,Maximilian Thiessen,Shota Saito,Atsushi Miyauchi,Fabio Vitale,Mark Herbster
発行日 2024-11-12 14:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク