要約
RL エージェントにドメイン知識を伝達するためのドメイン固有言語 (DSL) である RLang を紹介します。
意思決定形式主義の \textit{single} 要素 (報酬関数やポリシーなど) に基づいた既存の RL DSL とは異なり、RLang はマルコフ意思決定プロセスのすべての要素に関する情報を指定できます。
私たちは、RLang の正確な構文と基礎セマンティクスを定義し、RL エージェントが利用できるアルゴリズムに依存しない \textit{partial} ワールド モデルとポリシーに RLang プログラムを基礎付けるパーサーを提供します。
モデルフリーおよびモデルベースの表形式アルゴリズム、ポリシー勾配および値ベースのメソッド、階層的アプローチ、ディープメソッドを含む、さまざまな RL メソッドが得られた知識をどのように活用できるかを示す一連のサンプル RLang プログラムを提供します。
要約(オリジナル)
We introduce RLang, a domain-specific language (DSL) for communicating domain knowledge to an RL agent. Unlike existing RL DSLs that ground to \textit{single} elements of a decision-making formalism (e.g., the reward function or policy), RLang can specify information about every element of a Markov decision process. We define precise syntax and grounding semantics for RLang, and provide a parser that grounds RLang programs to an algorithm-agnostic \textit{partial} world model and policy that can be exploited by an RL agent. We provide a series of example RLang programs demonstrating how different RL methods can exploit the resulting knowledge, encompassing model-free and model-based tabular algorithms, policy gradient and value-based methods, hierarchical approaches, and deep methods.
arxiv情報
著者 | Rafael Rodriguez-Sanchez,Benjamin A. Spiegel,Jennifer Wang,Roma Patel,Stefanie Tellex,George Konidaris |
発行日 | 2023-05-30 15:07:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google