Online Reinforcement Learning with Passive Memory

要約

この論文では、オンライン インタラクションのための環境から事前に収集されたデータ (受動記憶) を活用するオンライン強化学習アルゴリズムについて考察します。
私たちは、パッシブ メモリを使用するとパフォーマンスが向上し、最小値に近い最適であることが判明した後悔に対する理論的な保証をさらに提供することを示します。
結果は、受動的記憶の質が、発生した後悔の最適性を決定することを示しています。
提案されたアプローチと結果は、連続的および離散的な状態アクション空間の両方に当てはまります。

要約(オリジナル)

This paper considers an online reinforcement learning algorithm that leverages pre-collected data (passive memory) from the environment for online interaction. We show that using passive memory improves performance and further provide theoretical guarantees for regret that turns out to be near-minimax optimal. Results show that the quality of passive memory determines sub-optimality of the incurred regret. The proposed approach and results hold in both continuous and discrete state-action spaces.

arxiv情報

著者 Anay Pattanaik,Lav R. Varshney
発行日 2024-10-18 17:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク