Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach

要約

ロバスト強化学習(RRL)は、不確実性や擾乱に対してロバストなモデルを学習し、実世界での応用をより効率的にすることを目的とした有望な強化学習(RL)パラダイムである。このパラダイムに従うと、不確実性や擾乱は第二の敵対エージェントの行動として解釈されるため、問題はどのような敵対エージェントの行動に対してもロバストなエージェントのポリシーを求めることに集約される。本論文は、RRL問題を位置微分ゲーム理論の中で考察することを初めて提案したものであり、これにより理論的に正当化された直観を得ることができ、集中型Q学習アプローチを開発するのに役立つ。すなわち、Isaacsの条件(実世界の力学系に対して十分に一般的)の下で、同じQ関数がminimaxとmaximinの両ベルマン方程式の近似解として利用できることを証明する。これらの結果に基づき、我々はIsaacs Deep Q-Networkアルゴリズムを提示し、様々な環境において、他のベースラインRRLアルゴリズムやマルチエージェントRLアルゴリズムと比較して、その優位性を実証する。

要約(オリジナル)

Robust Reinforcement Learning (RRL) is a promising Reinforcement Learning (RL) paradigm aimed at training robust to uncertainty or disturbances models, making them more efficient for real-world applications. Following this paradigm, uncertainty or disturbances are interpreted as actions of a second adversarial agent, and thus, the problem is reduced to seeking the agents’ policies robust to any opponent’s actions. This paper is the first to propose considering the RRL problems within the positional differential game theory, which helps us to obtain theoretically justified intuition to develop a centralized Q-learning approach. Namely, we prove that under Isaacs’s condition (sufficiently general for real-world dynamical systems), the same Q-function can be utilized as an approximate solution of both minimax and maximin Bellman equations. Based on these results, we present the Isaacs Deep Q-Network algorithms and demonstrate their superiority compared to other baseline RRL and Multi-Agent RL algorithms in various environments.

arxiv情報

著者 Anton Plaksin,Vitaly Kalev
発行日 2024-05-03 12:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 49N70, 68T07, cs.AI, cs.GT, cs.LG, cs.SY, eess.SY, math.OC パーマリンク