要約
本論文では、最近Jia and Zhou (2023)によってQ-learningの連続時間対応として造語されたq-learningを、エントロピー正則化強化学習の設定における連続時間Mckean-Vlasov制御問題に対して研究する。Jia and Zhou (2023)の単一エージェントの制御問題とは対照的に、エージェントの平均場相互作用はq関数の定義をより微妙なものにし、それに対して我々は2つの異なるq関数が自然に生じることを明らかにした:(i) Gu, Guo, Wei and Xu (2023)で導入された積分Q関数の一次近似である積分q関数($q$と表記)であり、テスト政策を含む弱いマルチンゲール条件によって学習可能である。我々は、2つのq関数が全てのテストポリシーの下で積分表現を介して関連していることを示す。弱いマルチンゲール条件と我々の提案するテストポリシーの探索法に基づき、いくつかのモデルフリーな学習アルゴリズムを考案する。LQ制御の枠組みとLQ制御の枠組みを超えた2つの例において、最適値関数とq関数の正確なパラメタリゼーションを求め、シミュレーション実験によりアルゴリズムを説明する。
要約(オリジナル)
This paper studies the q-learning, recently coined as the continuous time counterpart of Q-learning by Jia and Zhou (2023), for continuous time Mckean-Vlasov control problems in the setting of entropy-regularized reinforcement learning. In contrast to the single agent’s control problem in Jia and Zhou (2023), the mean-field interaction of agents renders the definition of the q-function more subtle, for which we reveal that two distinct q-functions naturally arise: (i) the integrated q-function (denoted by $q$) as the first-order approximation of the integrated Q-function introduced in Gu, Guo, Wei and Xu (2023), which can be learnt by a weak martingale condition involving test policies; and (ii) the essential q-function (denoted by $q_e$) that is employed in the policy improvement iterations. We show that two q-functions are related via an integral representation under all test policies. Based on the weak martingale condition and our proposed searching method of test policies, some model-free learning algorithms are devised. In two examples, one in LQ control framework and one beyond LQ control framework, we can obtain the exact parameterization of the optimal value function and q-functions and illustrate our algorithms with simulation experiments.
arxiv情報
著者 | Xiaoli Wei,Xiang Yu |
発行日 | 2024-11-01 09:07:41+00:00 |
arxivサイト | arxiv_id(pdf) |