要約
制御理論、人工知能、および形式手法の中心的なタスクは、部分的に未知の環境で動作するエージェントの報酬を最大化する戦略を合成することです。
グレー ボックス マルコフ決定プロセス (MDP) によってモデル化された環境では、エージェントのアクションの影響は、後続の状態の観点からはわかっていますが、関連する確率論はわかっていません。
この論文では、インターバルMDPを内部モデルとして利用する強化学習を介して、グレーボックスMDPの戦略合成アルゴリズムを考案します。
強化学習における限られたサンプリングアクセスと競合するために、確率論的保証と最適性ではなく、迅速かつ成功した学習に焦点を当てた2つの新しい概念をアルゴリズムに組み込みます。信頼限界の低い探索は、すでに学習された実用的な戦略のバリアントを強化し、アクションスコーピングは学習を減らします
有望なアクションへのアクションスペース。
AI およびフォーマル メソッド コミュニティの例に適用されたプロトタイプの実装によって、アルゴリズムの利点を説明します。
要約(オリジナル)
A central task in control theory, artificial intelligence, and formal methods is to synthesize reward-maximizing strategies for agents that operate in partially unknown environments. In environments modeled by gray-box Markov decision processes (MDPs), the impact of the agents’ actions are known in terms of successor states but not the stochastics involved. In this paper, we devise a strategy synthesis algorithm for gray-box MDPs via reinforcement learning that utilizes interval MDPs as internal model. To compete with limited sampling access in reinforcement learning, we incorporate two novel concepts into our algorithm, focusing on rapid and successful learning rather than on stochastic guarantees and optimality: lower confidence bound exploration reinforces variants of already learned practical strategies and action scoping reduces the learning action space to promising actions. We illustrate benefits of our algorithms by means of a prototypical implementation applied on examples from the AI and formal methods communities.
arxiv情報
著者 | Christel Baier,Clemens Dubslaff,Patrick Wienhöft,Stefan J. Kiebel |
発行日 | 2023-03-22 16:58:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google