Randomized Confidence Bounds for Stochastic Partial Monitoring

要約

部分モニタリング (PM) フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供します。
各ラウンドで、学習エージェントがアクションを実行すると同時に、環境が結果を選択します。
次に、エージェントは、(観察されていない) 結果について部分的にしか情報を提供しないフィードバック信号を観察します。
エージェントは受信したフィードバック信号を利用して、(観測されていない)累積損失を最小限に抑えるアクションを選択します。
コンテキスト PM では、結果は各ラウンドでアクションを選択する前にエージェントが観察できるいくつかのサイド情報に依存します。
このペーパーでは、確率的な結果を伴うコンテキストおよび非コンテキスト PM 設定について検討します。
我々は、決定論的信頼限界のランダム化に基づいた新しいクラスの戦略を導入します。これは、既存の確率的戦略が適用できない設定にリグレス保証を拡張します。
私たちの実験では、提案された RandCBP および RandCBPside* 戦略が PM ゲームの最先端のベースラインを改善することを示しています。
PM フレームワークの採用を促進するために、展開された分類システムのエラー率を監視するという現実の問題に関するユースケースを設計します。

要約(オリジナル)

The partial monitoring (PM) framework provides a theoretical formulation of sequential learning problems with incomplete feedback. On each round, a learning agent plays an action while the environment simultaneously chooses an outcome. The agent then observes a feedback signal that is only partially informative about the (unobserved) outcome. The agent leverages the received feedback signals to select actions that minimize the (unobserved) cumulative loss. In contextual PM, the outcomes depend on some side information that is observable by the agent before selecting the action on each round. In this paper, we consider the contextual and non-contextual PM settings with stochastic outcomes. We introduce a new class of strategies based on the randomization of deterministic confidence bounds, that extend regret guarantees to settings where existing stochastic strategies are not applicable. Our experiments show that the proposed RandCBP and RandCBPside* strategies improve state-of-the-art baselines in PM games. To encourage the adoption of the PM framework, we design a use case on the real-world problem of monitoring the error rate of any deployed classification system.

arxiv情報

著者 Maxime Heuillet,Ola Ahmad,Audrey Durand
発行日 2024-02-07 16:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク