要約
タイトル:Monte Carlo強化学習における軌跡の切り捨て
要約:
– 強化学習においては、エージェントが未知の環境で行動して外部報酬信号の期待累積割引和、つまり期待収益を最大化する。
– しかし、多くのタスクでは、モンテカルロシミュレーション内で固定長のエピソードを収集することが良く行われる。
– このようなデータ収集方法では、期待収益を最適化するには最善の選択ではない場合がある。
– 早期のシミュレーションステップでの報酬が将来の報酬よりも指数的に大きいため、この収集方法には欠点がある。
– 本論文では、期待収益の信頼区間の幅を最小化するための予めのバジェット割り当て戦略を提案する。
– 軌跡を異なる長さに別れて切り捨てることで、提案手法は目的を達成することができる。
– また、POISアルゴリズムを拡張するために提案手法を使用し、理論的性質と実験結果を示した。
– 実験では、軌跡を適切に切り捨てることで、性能が改善されることを示した。
要約(オリジナル)
In Reinforcement Learning (RL), an agent acts in an unknown environment to maximize the expected cumulative discounted sum of an external reward signal, i.e., the expected return. In practice, in many tasks of interest, such as policy optimization, the agent usually spends its interaction budget by collecting episodes of fixed length within a simulator (i.e., Monte Carlo simulation). However, given the discounted nature of the RL objective, this data collection strategy might not be the best option. Indeed, the rewards taken in early simulation steps weigh exponentially more than future rewards. Taking a cue from this intuition, in this paper, we design an a-priori budget allocation strategy that leads to the collection of trajectories of different lengths, i.e., truncated. The proposed approach provably minimizes the width of the confidence intervals around the empirical estimates of the expected return of a policy. After discussing the theoretical properties of our method, we make use of our trajectory truncation mechanism to extend Policy Optimization via Importance Sampling (POIS, Metelli et al., 2018) algorithm. Finally, we conduct a numerical comparison between our algorithm and POIS: the results are consistent with our theory and show that an appropriate truncation of the trajectories can succeed in improving performance.
arxiv情報
著者 | Riccardo Poiani,Alberto Maria Metelli,Marcello Restelli |
発行日 | 2023-05-07 19:41:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI