No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions

要約

敵対的なマルコフ決定プロセス用の既存のオンライン学習アルゴリズムは、たとえ損失関数が敵対者によって恣意的に選択されたとしても、$T$ ラウンドの相互作用後に ${O}(\sqrt{T})$ の後悔を達成します。ただし、遷移関数には次の注意事項があります。
修正されること。
これは、敵対的遷移関数によって後悔のない学習が不可能になることが示されているためです。
このような不可能な結果にもかかわらず、この研究では、敵対者の悪意の度合いが滑らかに増加する後悔を伴う敵対的損失と敵対的移行の両方を処理できるアルゴリズムを開発します。
より具体的には、まず、$C^{\textsf{P}}$ が測定する $\widetilde{{O}}(\sqrt{T} + C^{\textsf{P}})$ の後悔を楽しむアルゴリズムを提案します。
遷移関数がどれほど敵対的であるか、また最大でも ${O}(T)$ になる可能性があります。
このアルゴリズム自体は $C^{\textsf{P}}$ の知識を必要としますが、この要件を取り除くブラックボックス削減アプローチをさらに開発します。
さらに、アルゴリズムをさらに改良すると、同じリグレス限界を維持するだけでなく、同時により容易な環境(Jin et al. [2021] のように特定の確率的に制約された方法で損失が生成される場合)に適応し、$ を達成できることも示します。
\widetilde{{O}}(U + \sqrt{UC^{\textsf{L}}} + C^{\textsf{P}})$ 残念です。ここで、$U$ は標準的なギャップ依存係数、$ は
C^{\textsf{L}}$ は、損失による破損の量です。

要約(オリジナル)

Existing online learning algorithms for adversarial Markov Decision Processes achieve ${O}(\sqrt{T})$ regret after $T$ rounds of interactions even if the loss functions are chosen arbitrarily by an adversary, with the caveat that the transition function has to be fixed. This is because it has been shown that adversarial transition functions make no-regret learning impossible. Despite such impossibility results, in this work, we develop algorithms that can handle both adversarial losses and adversarial transitions, with regret increasing smoothly in the degree of maliciousness of the adversary. More concretely, we first propose an algorithm that enjoys $\widetilde{{O}}(\sqrt{T} + C^{\textsf{P}})$ regret where $C^{\textsf{P}}$ measures how adversarial the transition functions are and can be at most ${O}(T)$. While this algorithm itself requires knowledge of $C^{\textsf{P}}$, we further develop a black-box reduction approach that removes this requirement. Moreover, we also show that further refinements of the algorithm not only maintains the same regret bound, but also simultaneously adapts to easier environments (where losses are generated in a certain stochastically constrained manner as in Jin et al. [2021]) and achieves $\widetilde{{O}}(U + \sqrt{UC^{\textsf{L}}} + C^{\textsf{P}})$ regret, where $U$ is some standard gap-dependent coefficient and $C^{\textsf{L}}$ is the amount of corruption on losses.

arxiv情報

著者 Tiancheng Jin,Junyan Liu,Chloé Rouyer,William Chang,Chen-Yu Wei,Haipeng Luo
発行日 2023-10-26 17:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6, stat.ML パーマリンク