要約
私たちは、強化学習のいくつかの成功した大規模応用において重要なコンポーネントであることが証明されている分布強化学習アルゴリズムである分位時間差学習 (QTD) を分析します。
これらの経験的な成功にもかかわらず、QTD の理論的な理解はこれまでとらえどころがありませんでした。
標準の確率的近似ツールで分析できる古典的な TD 学習とは異なり、QTD 更新は収縮マッピングを近似せず、非線形性が高く、複数の固定点を持つ場合があります。
この論文の中核となる結果は、確率 1 の関連する動的計画法手順の固定点への収束の証明であり、QTD を理論的に確固たる基盤に置きます。
この証明では、確率的近似理論と非滑らかな解析を通じて、QTD と非線形微分包含物との間の関係が確立されます。
要約(オリジナル)
We analyse quantile temporal-difference learning (QTD), a distributional reinforcement learning algorithm that has proven to be a key component in several successful large-scale applications of reinforcement learning. Despite these empirical successes, a theoretical understanding of QTD has proven elusive until now. Unlike classical TD learning, which can be analysed with standard stochastic approximation tools, QTD updates do not approximate contraction mappings, are highly non-linear, and may have multiple fixed points. The core result of this paper is a proof of convergence to the fixed points of a related family of dynamic programming procedures with probability 1, putting QTD on firm theoretical footing. The proof establishes connections between QTD and non-linear differential inclusions through stochastic approximation theory and non-smooth analysis.
arxiv情報
著者 | Mark Rowland,Rémi Munos,Mohammad Gheshlaghi Azar,Yunhao Tang,Georg Ostrovski,Anna Harutyunyan,Karl Tuyls,Marc G. Bellemare,Will Dabney |
発行日 | 2023-05-25 17:37:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google