要約
最近の研究では、ドメインが固定され、一連のトレーニング問題(計画ではない)が与えられたときに、一時的なプランナーのパフォーマンスを改善するためのヒューリスティックガイダンスの統合のための補強学習(RL)の使用を調査しました。
アイデアは、トレーニングの問題を介して構築された特定の(おそらく無限状態)MDPの値関数からヒューリスティックを抽出することです。
この論文では、RLと計画段階の両方で象徴的なヒューリスティックによって提供される情報を利用することに焦点を当てたこの学習および計画の枠組みの進化を提案します。
まず、合成のために異なる報酬スキーマを正式にし、シンボリックヒューリスティックを使用して、潜在的に無限のMDPに対処するために必要なエピソードの切り捨てによって引き起こされる問題を軽減します。
第二に、既存のシンボリックヒューリスティックの残差を学ぶことを提案します。これは、ヒューリスティック全体をゼロから学ぶのではなく、ヒューリスティックな価値の「修正」です。
最後に、系統的検索と不完全な学習情報とのバランスをとるために、複数のキュー計画アプローチを使用して、象徴的なヒューリスティックと組み合わせて、学んだヒューリスティックを使用します。
私たちはすべてのアプローチを実験的に比較し、それらの長所と短所を強調し、この計画と学習スキーマの最新技術を大幅に進めます。
要約(オリジナル)
Recent work investigated the use of Reinforcement Learning (RL) for the synthesis of heuristic guidance to improve the performance of temporal planners when a domain is fixed and a set of training problems (not plans) is given. The idea is to extract a heuristic from the value function of a particular (possibly infinite-state) MDP constructed over the training problems. In this paper, we propose an evolution of this learning and planning framework that focuses on exploiting the information provided by symbolic heuristics during both the RL and planning phases. First, we formalize different reward schemata for the synthesis and use symbolic heuristics to mitigate the problems caused by the truncation of episodes needed to deal with the potentially infinite MDP. Second, we propose learning a residual of an existing symbolic heuristic, which is a ‘correction’ of the heuristic value, instead of eagerly learning the whole heuristic from scratch. Finally, we use the learned heuristic in combination with a symbolic heuristic using a multiple-queue planning approach to balance systematic search with imperfect learned information. We experimentally compare all the approaches, highlighting their strengths and weaknesses and significantly advancing the state of the art for this planning and learning schema.
arxiv情報
著者 | Irene Brugnara,Alessandro Valentini,Andrea Micheli |
発行日 | 2025-05-19 17:19:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google