Neural Reward Machines

要約

非マルコフ強化学習 (RL) タスクは、エージェントが環境内で合理的に行動するために状態と行動のペアの履歴全体を考慮する必要があるため、解決するのが非常に困難です。
ほとんどの作品は、時間的に拡張されたタスクを指定するために (線形時間論理またはオートマトンとして) 記号形式を使用します。
これらのアプローチは、有限および離散状態環境、または生の状態と記号解釈の間のマッピングがシンボル グラウンディング (SG) 関数として知られる連続問題でのみ機能します。
ここでは、ムーア マシンの確率的緩和に基づいた、非記号非マルコフ RL ドメインでの推論と学習の両方に使用できるオートマトン ベースの神経記号フレームワークであるニューラル報酬マシン (NRM) を定義します。
我々は、RL と半教師ありシンボルグラウンディング (SSSG) を組み合わせ、NRM が SG 機能の知識がなくても非シンボリック環境で高レベルのシンボリック知識を活用でき、事前知識を組み込むことができない Deep RL 手法よりも優れたパフォーマンスを発揮できることを示します。
さらに、我々は SSSG の研究を進め、係数 $10^3$ のベースライン手法よりも効率的な、時間的仕様のグラウンディング可能性を分析するためのアルゴリズムを提案します。

要約(オリジナル)

Non-markovian Reinforcement Learning (RL) tasks are very hard to solve, because agents must consider the entire history of state-action pairs to act rationally in the environment. Most works use symbolic formalisms (as Linear Temporal Logic or automata) to specify the temporally-extended task. These approaches only work in finite and discrete state environments or continuous problems for which a mapping between the raw state and a symbolic interpretation is known as a symbol grounding (SG) function. Here, we define Neural Reward Machines (NRM), an automata-based neurosymbolic framework that can be used for both reasoning and learning in non-symbolic non-markovian RL domains, which is based on the probabilistic relaxation of Moore Machines. We combine RL with semisupervised symbol grounding (SSSG) and we show that NRMs can exploit high-level symbolic knowledge in non-symbolic environments without any knowledge of the SG function, outperforming Deep RL methods which cannot incorporate prior knowledge. Moreover, we advance the research in SSSG, proposing an algorithm for analysing the groundability of temporal specifications, which is more efficient than baseline techniques of a factor $10^3$.

arxiv情報

著者 Elena Umili,Francesco Argenziano,Roberto Capobianco
発行日 2024-08-16 11:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク