要約
タイトル:エピソード性の強化学習における楽観性と遅延
要約:
– エピソード性の強化学習において後悔の最小化を行うアルゴリズムは多数存在する。
– 理論的には、エピソードに関連する状態、行動、報酬のシーケンスがアルゴリズムに利用可能であれば、すぐに方策を更新することができる。
– しかし、実際にはフィードバックはほぼ常に遅延するため、この論文では遅延したフィードバックの影響を理論的に研究し、2つの一般的な手法を提案する。
– 1つ目の手法は、新しい情報が利用可能になった時点ですぐに更新する方法であり、2つ目の手法は、新しく観測された情報をポリシーを更新する前に待つ方法である。
– 楽観的なアルゴリズムを対象とした場合、どちらの手法でも、誤差の増加量は、状態数、行動数、エピソード長、期待遅延、アルゴリズム依存の定数を加算した形で表されることを示す。
– 理論結果を検証するために、様々な遅延分布の影響を楽観的なアルゴリズムの誤差について実験的に調査する。
要約(オリジナル)
There are many algorithms for regret minimisation in episodic reinforcement learning. This problem is well-understood from a theoretical perspective, providing that the sequences of states, actions and rewards associated with each episode are available to the algorithm updating the policy immediately after every interaction with the environment. However, feedback is almost always delayed in practice. In this paper, we study the impact of delayed feedback in episodic reinforcement learning from a theoretical perspective and propose two general-purpose approaches to handling the delays. The first involves updating as soon as new information becomes available, whereas the second waits before using newly observed information to update the policy. For the class of optimistic algorithms and either approach, we show that the regret increases by an additive term involving the number of states, actions, episode length, the expected delay and an algorithm-dependent constant. We empirically investigate the impact of various delay distributions on the regret of optimistic algorithms to validate our theoretical results.
arxiv情報
著者 | Benjamin Howson,Ciara Pike-Burke,Sarah Filippi |
発行日 | 2023-04-06 13:22:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI