要約
この論文では、エントロピー正則化強化学習の設定における連続時間マッキーン・ブラソフ制御問題について、Jia と Zhou (2022c) によって Q 学習の連続時間対応物として最近作られた Q 学習を研究します。
Jia and Zhou (2022c) の単一エージェントの制御問題とは対照的に、エージェントの平均場相互作用は q 関数の定義をより微妙にし、それに対して 2 つの異なる q 関数が自然に生じることを明らかにします。
Gu, Guo, Wei and Xu (2023) で導入された統合 Q 関数の一次近似としての統合 q 関数 ($q$ で示される)。テスト ポリシーを含む弱いマーチンゲール条件によって学習できます。
(ii) 政策改善の反復で使用される必須の q 関数 ($q_e$ で示される)。
すべてのテスト ポリシーの下で、2 つの q 関数が積分表現を介して関連付けられていることを示します。
統合q関数の弱いマーチンゲール条件とテストポリシーの提案した検索方法に基づいて、いくつかのモデルフリーのオフラインおよびオンライン学習アルゴリズムが考案されました。
2 つの金融アプリケーション (1 つは LQ 制御フレームワーク内、もう 1 つは LQ 制御フレームワークを超えたもの) で、値関数と 2 つの q 関数の正確なパラメーター化を取得し、シミュレーション実験でアルゴリズムを説明できます。
要約(オリジナル)
This paper studies the q-learning, recently coined as the continuous-time counterpart of Q-learning by Jia and Zhou (2022c), for continuous time Mckean-Vlasov control problems in the setting of entropy-regularized reinforcement learning. In contrast to the single agent’s control problem in Jia and Zhou (2022c), the mean-field interaction of agents render the definition of q-function more subtle, for which we reveal that two distinct q-functions naturally arise: (i) the integrated q-function (denoted by $q$) as the first-order approximation of the integrated Q-function introduced in Gu, Guo, Wei and Xu (2023) that can be learnt by a weak martingale condition involving test policies; and (ii) the essential q-function (denoted by $q_e$) that is employed in the policy improvement iterations. We show that two q-functions are related via an integral representation under all test policies. Based on the weak martingale condition of the integrated q-function and our proposed searching method of test policies, some model-free offline and online learning algorithms are devised. In two financial applications, one in LQ control framework and one beyond LQ control framework, we can obtain the exact parameterization of the value function and two q-functions and illustrate our algorithms with simulation experiments.
arxiv情報
著者 | Xiaoli Wei,Xiang Yu |
発行日 | 2023-06-28 13:43:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google