Towards a Unified Framework for Sequential Decision Making

要約

近年、自動計画(AP)と強化学習(RL)の統合に関心が集まっている。この統合を行うためには、逐次意思決定(SDM)の一般的なフレームワークが非常に有用である。この予備的な研究では、確率論とベイズ推論の概念を利用することで、古典的プランニングからディープRLまで、あらゆる手法に適したそのような枠組みを提供することを試みる。汎化を考慮するために、SDMタスクを訓練とテストのマルコフ決定過程(MDP)の集合として定式化する。SDMの一般的なアルゴリズムを提供する。これによると、すべてのSDMアルゴリズムは、利用可能なタスク知識を活用して解の推定値を反復的に改善する手順とみなすことができる。最後に、SDMタスクと手法の興味深い特性を計算するための一連の公式とアルゴリズムを導出し、実証的な評価と比較を可能にする。

要約(オリジナル)

In recent years, the integration of Automated Planning (AP) and Reinforcement Learning (RL) has seen a surge of interest. To perform this integration, a general framework for Sequential Decision Making (SDM) would prove immensely useful, as it would help us understand how AP and RL fit together. In this preliminary work, we attempt to provide such a framework, suitable for any method ranging from Classical Planning to Deep RL, by drawing on concepts from Probability Theory and Bayesian inference. We formulate an SDM task as a set of training and test Markov Decision Processes (MDPs), to account for generalization. We provide a general algorithm for SDM which we hypothesize every SDM method is based on. According to it, every SDM algorithm can be seen as a procedure that iteratively improves its solution estimate by leveraging the task knowledge available. Finally, we derive a set of formulas and algorithms for calculating interesting properties of SDM tasks and methods, which make possible their empirical evaluation and comparison.

arxiv情報

著者 Carlos Núñez-Molina,Pablo Mesejo,Juan Fernández-Olivares
発行日 2023-10-03 16:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, I.2.8 パーマリンク