Reinforcement Learning With Reward Machines in Stochastic Games

要約

私たちは、報酬関数が非マルコフ関数である複雑なタスクを伴う確率的ゲームのためのマルチエージェント強化学習を調査します。
私たちは報酬マシンを利用して、複雑なタスクに関する高度な知識を組み込みます。
私たちは、各エージェントのナッシュ均衡における最良の応答戦略を学習するために、確率ゲーム用報酬マシンを使用した Q 学習 (QRM-SG) と呼ばれるアルゴリズムを開発しました。
QRM-SG では、拡張状態空間のナッシュ均衡における Q 関数を定義します。
拡張された状態空間は、確率的ゲームの状態と報酬マシンの状態を統合します。
各エージェントは、システム内のすべてのエージェントの Q 機能を学習します。
学習中の各タイムステップのステージゲームに大域的最適点または鞍点があり、エージェントが
現時点での最良の応答戦略。
Lemke-Howson 法を使用して、現在の Q 関数を考慮した最良の応答戦略を導き出します。
3 つのケーススタディは、QRM-SG が最良の応答戦略を効果的に学習できることを示しています。
QRM-SG は、ケーススタディ I では約 7500 エピソード、ケーススタディ II では約 1000 エピソード、ケーススタディ III では約 1500 エピソード後に最良の応答戦略を学習しますが、ナッシュ Q 学習や MADDPG などのベースライン手法はナッシュに収束できません。
3 つのケーススタディすべてで均衡が保たれています。

要約(オリジナル)

We investigate multi-agent reinforcement learning for stochastic games with complex tasks, where the reward functions are non-Markovian. We utilize reward machines to incorporate high-level knowledge of complex tasks. We develop an algorithm called Q-learning with reward machines for stochastic games (QRM-SG), to learn the best-response strategy at Nash equilibrium for each agent. In QRM-SG, we define the Q-function at a Nash equilibrium in augmented state space. The augmented state space integrates the state of the stochastic game and the state of reward machines. Each agent learns the Q-functions of all agents in the system. We prove that Q-functions learned in QRM-SG converge to the Q-functions at a Nash equilibrium if the stage game at each time step during learning has a global optimum point or a saddle point, and the agents update Q-functions based on the best-response strategy at this point. We use the Lemke-Howson method to derive the best-response strategy given current Q-functions. The three case studies show that QRM-SG can learn the best-response strategies effectively. QRM-SG learns the best-response strategies after around 7500 episodes in Case Study I, 1000 episodes in Case Study II, and 1500 episodes in Case Study III, while baseline methods such as Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all three case studies.

arxiv情報

著者 Jueming Hu,Jean-Raphael Gaglione,Yanze Wang,Zhe Xu,Ufuk Topcu,Yongming Liu
発行日 2023-08-01 17:33:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク