Randomized Confidence Bounds for Stochastic Partial Monitoring


部分モニタリング (PM) フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供します。
次に、エージェントは、(観察されていない) 結果について部分的にしか情報を提供しないフィードバック信号を観察します。
コンテキスト PM では、結果は各ラウンドでアクションを選択する前にエージェントが観察できるいくつかのサイド情報に依存します。
このペーパーでは、確率的な結果を伴うコンテキストおよび非コンテキスト PM 設定について検討します。
私たちの実験では、提案された RandCBP および RandCBPside* 戦略が PM ゲームの最先端のベースラインを改善することを示しています。
PM フレームワークの採用を促進するために、展開された分類システムのエラー率を監視するという現実の問題に関するユースケースを設計します。


The partial monitoring (PM) framework provides a theoretical formulation of sequential learning problems with incomplete feedback. On each round, a learning agent plays an action while the environment simultaneously chooses an outcome. The agent then observes a feedback signal that is only partially informative about the (unobserved) outcome. The agent leverages the received feedback signals to select actions that minimize the (unobserved) cumulative loss. In contextual PM, the outcomes depend on some side information that is observable by the agent before selecting the action on each round. In this paper, we consider the contextual and non-contextual PM settings with stochastic outcomes. We introduce a new class of strategies based on the randomization of deterministic confidence bounds, that extend regret guarantees to settings where existing stochastic strategies are not applicable. Our experiments show that the proposed RandCBP and RandCBPside* strategies improve state-of-the-art baselines in PM games. To encourage the adoption of the PM framework, we design a use case on the real-world problem of monitoring the error rate of any deployed classification system.


