要約
このペーパーでは、相互作用データのユニバーサルソースコーディングの一般化、つまり、アクションが観測とインターリーブされるデータストリームの一般化を検討します。
私たちの目標は、ユニバーサル\ emph {および}の両方であるコーディング分布を制御ポリシーとして使用できることです。
アクションと観測を区別しない素朴なアプローチと普遍的な設定の自己妄想問題に陥るため、アクション生成が慎重に治療する必要があります。
私たちは、挑戦的な非定常確率的ベルヌーリ盗賊問題の文脈で私たちの視点を紹介します。
私たちの主な貢献は、この問題の効率的で高いパフォーマンスのアルゴリズムであり、制御設定への受動的予測のためのユニバーサルソースコーディング手法をパーティションツリーに重み付けしています。
要約(オリジナル)
This paper considers a generalisation of universal source coding for interaction data, namely data streams that have actions interleaved with observations. Our goal will be to construct a coding distribution that is both universal \emph{and} can be used as a control policy. Allowing for action generation needs careful treatment, as naive approaches which do not distinguish between actions and observations run into the self-delusion problem in universal settings. We showcase our perspective in the context of the challenging non-stationary stochastic Bernoulli bandit problem. Our main contribution is an efficient and high performing algorithm for this problem that generalises the Partition Tree Weighting universal source coding technique for passive prediction to the control setting.
arxiv情報
著者 | Joel Veness,Marcus Hutter,Andras Gyorgy,Jordi Grau-Moya |
発行日 | 2025-02-26 17:16:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google