q-Learning in Continuous Time

要約

タイトル:連続時間におけるq-Learning
要約:
– Wangらによって導入されたエントロピー正則化探索拡散プロセスの枠組み下で、強化学習(RL)のQ-learningの連続時間の対応を研究する。
– 連続時間では通常の(大きな)Q関数が崩壊するので、1次近似を考慮して、「(小さな)q関数」という用語を造語する。
– この関数は瞬間的なアドバンテージ率関数やハミルトニアンと関連している。
– q関数を中心に「q-learning」理論を開発し、時間の離散化に依存しないようにする。
– 確率的ポリシーが与えられた場合、オンポリシーおよびオフポリシーのセッティングの両方において、特定の確率過程のマルティンゲール条件によって、関連するq関数と価値関数を共同的に特徴付ける。
– この理論をRL問題を解決する異なるアクター・クリティックアルゴリズムを考案するために応用し、q関数から生成されるギブス測度の密度関数を明示的に計算できるかどうかに応じて。
– 1つのアルゴリズムは、よく知られているQ-learningアルゴリズムSARSAを解釈し、もう1つはJiaとZhou(2022b)で提案されたポリシーグラディエント(PG)ベースの連続時間アルゴリズムを回復する。
– 最後に、シミュレーション実験を行って、PGベースのアルゴリズムと時間離散化された通常のQ-learningアルゴリズムのパフォーマンスと比較する。

要約(オリジナル)

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced by Wang et al. (2020). As the conventional (big) Q-function collapses in continuous time, we consider its first-order approximation and coin the term “(little) q-function’. This function is related to the instantaneous advantage rate function as well as the Hamiltonian. We develop a “q-learning’ theory around the q-function that is independent of time discretization. Given a stochastic policy, we jointly characterize the associated q-function and value function by martingale conditions of certain stochastic processes, in both on-policy and off-policy settings. We then apply the theory to devise different actor-critic algorithms for solving underlying RL problems, depending on whether or not the density function of the Gibbs measure generated from the q-function can be computed explicitly. One of our algorithms interprets the well-known Q-learning algorithm SARSA, and another recovers a policy gradient (PG) based continuous-time algorithm proposed in Jia and Zhou (2022b). Finally, we conduct simulation experiments to compare the performance of our algorithms with those of PG-based algorithms in Jia and Zhou (2022b) and time-discretized conventional Q-learning algorithms.

arxiv情報

著者 Yanwei Jia,Xun Yu Zhou
発行日 2023-04-24 00:18:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, q-fin.CP パーマリンク