要約
報酬機(RMS)は、有限状態マシンを介して補強学習(RL)における非マルコビアン報酬に対処するための効果的なアプローチです。
命題論理式でエッジをラベル付けする従来のRMSは、命題論理の限られた表現性を継承します。
複雑なタスクには多数の状態とエッジが必要になるため、この制限はRMSの学習性と移転性を妨げます。
これらの課題を克服するために、一次報酬マシン($ \ texttt {form} $ s)を提案します。これは、1次ロジックを使用してエッジにラベルを付け、よりコンパクトで転送可能なRMSになります。
$ \ textbf {Learning} $ \ texttt {form} $ sの新しい方法と、$ \ textbf {exploiting} $のマルチエージェント定式化を紹介し、それらの転送可能性を促進します。
実験結果は、従来のRMSに関して$ \ texttt {form} $ sのスケーラビリティを示しています。
具体的には、従来のRM学習アプローチが失敗するタスクについて、$ \ texttt {form} $ sを効果的に学習できることを示します。
また、マルチエージェント学習フレームワークと1次言語が提供する抽象化により、学習速度とタスク移転性の大幅な改善を示しています。
要約(オリジナル)
Reward machines (RMs) are an effective approach for addressing non-Markovian rewards in reinforcement learning (RL) through finite-state machines. Traditional RMs, which label edges with propositional logic formulae, inherit the limited expressivity of propositional logic. This limitation hinders the learnability and transferability of RMs since complex tasks will require numerous states and edges. To overcome these challenges, we propose First-Order Reward Machines ($\texttt{FORM}$s), which use first-order logic to label edges, resulting in more compact and transferable RMs. We introduce a novel method for $\textbf{learning}$ $\texttt{FORM}$s and a multi-agent formulation for $\textbf{exploiting}$ them and facilitate their transferability, where multiple agents collaboratively learn policies for a shared $\texttt{FORM}$. Our experimental results demonstrate the scalability of $\texttt{FORM}$s with respect to traditional RMs. Specifically, we show that $\texttt{FORM}$s can be effectively learnt for tasks where traditional RM learning approaches fail. We also show significant improvements in learning speed and task transferability thanks to the multi-agent learning framework and the abstraction provided by the first-order language.
arxiv情報
| 著者 | Leo Ardon,Daniel Furelos-Blanco,Roko Parac,Alessandra Russo |
| 発行日 | 2025-02-28 17:13:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google