A Definition of Non-Stationary Bandits

要約

非定常バンディット学習の主題は、最近多くの注目を集めています。
ただし、非固定盗賊には正式な定義がありません。
大まかに言えば、非定常バンディットは通常、文献では報酬の分配が時間とともに変化するものとして特徴付けられてきました。
この非公式な定義があいまいであることを示します。
さらに、広く使用されている後悔の概念である動的後悔は、このあいまいな定義に動機付けられているため、問題があります。
特に、最適なエージェントであっても、動的な後悔はパフォーマンスの低下を示唆する可能性があります。
あいまいな定義はまた、盗賊が経験する非定常性の程度の測定を動機付けます。これはしばしば過大評価され、非常に緩い後悔の境界を引き起こす可能性があります.
この論文の主な貢献は、あいまいさを解決する正式な定義です。
この定義は、後悔の新しい概念、非定常性の程度の代替尺度、および非定常バンディット学習のより厳しい境界につながる後悔分析を動機付けます。
後悔の分析は、あらゆるバンディット、固定または非固定、およびあらゆるエージェントに適用されます。

要約(オリジナル)

The subject of non-stationary bandit learning has attracted much recent attention. However, non-stationary bandits lack a formal definition. Loosely speaking, non-stationary bandits have typically been characterized in the literature as those for which the reward distribution changes over time. We demonstrate that this informal definition is ambiguous. Further, a widely-used notion of regret — the dynamic regret — is motivated by this ambiguous definition and thus problematic. In particular, even for an optimal agent, dynamic regret can suggest poor performance. The ambiguous definition also motivates a measure of the degree of non-stationarity experienced by a bandit, which often overestimates and can give rise to extremely loose regret bounds. The primary contribution of this paper is a formal definition that resolves ambiguity. This definition motivates a new notion of regret, an alternative measure of the degree of non-stationarity, and a regret analysis that leads to tighter bounds for non-stationary bandit learning. The regret analysis applies to any bandit, stationary or non-stationary, and any agent.

arxiv情報

著者 Yueyang Liu,Benjamin Van Roy,Kuang Xu
発行日 2023-02-23 17:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク