要約
この論文では、マルチエージェント制御問題に対する階層化されたアプローチを 3 つの段階に分解し、それぞれが前の段階の結果に基づいて構築する方法を紹介します。
まず、システムの大まかな抽象化のための高レベルの計画が計算されます。これは、ストップウォッチで強化されたパラメトリックなタイミング オートマトンに依存します。これにより、このようなシステムの単純化されたダイナミクスを効率的にモデル化できます。
第 2 段階では、SMT 定式化に基づく高レベルの計画が主に問題の組み合わせの側面を処理し、より動的に正確なソリューションを提供します。
これらのステージは総称して SWA-SMT ソルバーと呼ばれます。
これらは構造的には正しいですが、リアルタイムで実行できないという重要な機能が欠けています。
これを克服するために、ニューラル ネットワーク制御ポリシーを取得することを目的とした最終段階の初期トレーニング データセットとして SWA-SMT ソリューションを使用します。
強化学習を使用してポリシーをトレーニングし、初期データセットがメソッドの全体的な成功にとって重要であることを示します。
要約(オリジナル)
In this paper we present a layered approach for multi-agent control problem, decomposed into three stages, each building upon the results of the previous one. First, a high-level plan for a coarse abstraction of the system is computed, relying on parametric timed automata augmented with stopwatches as they allow to efficiently model simplified dynamics of such systems. In the second stage, the high-level plan, based on SMT-formulation, mainly handles the combinatorial aspects of the problem, provides a more dynamically accurate solution. These stages are collectively referred to as the SWA-SMT solver. They are correct by construction but lack a crucial feature: they cannot be executed in real time. To overcome this, we use SWA-SMT solutions as the initial training dataset for our last stage, which aims at obtaining a neural network control policy. We use reinforcement learning to train the policy, and show that the initial dataset is crucial for the overall success of the method.
arxiv情報
著者 | Emily Clement,Nicolas Perrin-Gilbert,Philipp Schlehuber-Caissier |
発行日 | 2023-07-13 13:56:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google