Strategy Synthesis in Markov Decision Processes Under Limited Sampling Access

要約

タイトル:限定されたサンプリングアクセス下のマルコフ決定過程における戦略合成
要約:
– 不完全に知られた環境で操作するエージェントの報酬最大化戦略を合成することは、制御理論、人工知能、形式手法における中心的な課題の1つである。
– 灰色箱マルコフ決定過程(MDP)でモデル化された環境では、エージェントの行動の影響は後続状態についてはわかっているが、確率についてはわからない。
– 本論文では、内部モデルとして区間MDPを利用する強化学習による灰色箱MDPの戦略合成アルゴリズムを考案しました。
– 強化学習の限定されたサンプリングアクセスに対処するため、確率的保証と最適性に焦点を当てるのではなく、既に実践的な戦略の変種を強化する下限信頼境界探索と、有望なアクションに学習アクションスペースを減らすアクションスコープの2つの新しい概念をアルゴリズムに組み込みました。
– AIおよび形式方法のコミュニティからの例を用いたプロトタイプ実装により、アルゴリズムの利点を示しました。

要約(オリジナル)

A central task in control theory, artificial intelligence, and formal methods is to synthesize reward-maximizing strategies for agents that operate in partially unknown environments. In environments modeled by gray-box Markov decision processes (MDPs), the impact of the agents’ actions are known in terms of successor states but not the stochastics involved. In this paper, we devise a strategy synthesis algorithm for gray-box MDPs via reinforcement learning that utilizes interval MDPs as internal model. To compete with limited sampling access in reinforcement learning, we incorporate two novel concepts into our algorithm, focusing on rapid and successful learning rather than on stochastic guarantees and optimality: lower confidence bound exploration reinforces variants of already learned practical strategies and action scoping reduces the learning action space to promising actions. We illustrate benefits of our algorithms by means of a prototypical implementation applied on examples from the AI and formal methods communities.

arxiv情報

著者 Christel Baier,Clemens Dubslaff,Patrick Wienhöft,Stefan J. Kiebel
発行日 2023-04-24 12:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク