Assume-Guarantee Reinforcement Learning

要約

私たちは、並行して進化するより単純なコンポーネントで構成される環境における \emph{強化学習} (RL) へのモジュール式アプローチを提案します。
このようなモジュール環境のモノリシック ビューは、学習するには法外に大きい場合や、集中コントローラの形式でコンポーネント間で実現不可能な通信を必要とする場合があります。
私たちが提案するアプローチは、仮定保証パラダイムに基づいており、隣接するコンポーネントの動作について \emph{仮定} を立て、コンポーネント自身の動作について \emph{保証} を提供することで、個々のコンポーネントに対する最適な制御が個別に合成されます。
これらの \emph{assume-guarantee Contract} を通常の言語として表現し、RL で使用されるスカラー報酬への自動翻訳を提供します。
各コンポーネントの局所的な満足確率を組み合わせることで、システム全体の満足確率の下限が決まります。
各コンポーネントのマルコフ ゲームを解くことにより、RL はこの下限を最大化する各コンポーネントのコントローラーを生成できます。
コントローラーは、通信、観察、および他のエージェントの大まかなモデルに関する知識を通じて受信した情報を利用します。
我々は、さまざまなケーススタディにおいて、提案されたアプローチの効率性を実験的に実証します。

要約(オリジナル)

We present a modular approach to \emph{reinforcement learning} (RL) in environments consisting of simpler components evolving in parallel. A monolithic view of such modular environments may be prohibitively large to learn, or may require unrealizable communication between the components in the form of a centralized controller. Our proposed approach is based on the assume-guarantee paradigm where the optimal control for the individual components is synthesized in isolation by making \emph{assumptions} about the behaviors of neighboring components, and providing \emph{guarantees} about their own behavior. We express these \emph{assume-guarantee contracts} as regular languages and provide automatic translations to scalar rewards to be used in RL. By combining local probabilities of satisfaction for each component, we provide a lower bound on the probability of satisfaction of the complete system. By solving a Markov game for each component, RL can produce a controller for each component that maximizes this lower bound. The controller utilizes the information it receives through communication, observations, and any knowledge of a coarse model of other agents. We experimentally demonstrate the efficiency of the proposed approach on a variety of case studies.

arxiv情報

著者 Milad Kazemi,Mateo Perez,Fabio Somenzi,Sadegh Soudjani,Ashutosh Trivedi,Alvaro Velasquez
発行日 2023-12-15 16:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク