ODE-based Recurrent Model-free Reinforcement Learning for POMDPs

要約

ニューラル常微分方程式 (ODE) は、未知の物理的または生物学的環境で近似推論を実行するのに役立つ、物理メカニズムをモデル化するための標準として広く認識されています。
部分的に観測可能な (PO) 環境では、生の観測から目に見えない情報をどのように推測するかがエージェントを困惑させました。
コンパクトなコンテキストを持つリカレント ポリシーを使用することにより、コンテキスト ベースの強化学習は、履歴遷移から観察できない情報を抽出する柔軟な方法を提供します。
エージェントがより多くのダイナミクス関連情報を抽出できるようにするために、部分的に観察可能なマルコフ決定プロセス (POMDP) を解決するモデルフリー強化学習 (RL) フレームワークと組み合わせた新しい ODE ベースのリカレント モデルを紹介します。
私たちは、さまざまな PO 連続制御タスクおよびメタ RL タスクにわたって私たちの方法の有効性を実験的に実証します。
さらに、私たちの実験は、不規則にサンプリングされた時系列をモデル化する ODE の能力により、私たちの方法が不規則な観測に対して堅牢であることを示しています。

要約(オリジナル)

Neural ordinary differential equations (ODEs) are widely recognized as the standard for modeling physical mechanisms, which help to perform approximate inference in unknown physical or biological environments. In partially observable (PO) environments, how to infer unseen information from raw observations puzzled the agents. By using a recurrent policy with a compact context, context-based reinforcement learning provides a flexible way to extract unobservable information from historical transitions. To help the agent extract more dynamics-related information, we present a novel ODE-based recurrent model combines with model-free reinforcement learning (RL) framework to solve partially observable Markov decision processes (POMDPs). We experimentally demonstrate the efficacy of our methods across various PO continuous control and meta-RL tasks. Furthermore, our experiments illustrate that our method is robust against irregular observations, owing to the ability of ODEs to model irregularly-sampled time series.

arxiv情報

著者 Xuanle Zhao,Duzhen Zhang,Liyuan Han,Tielin Zhang,Bo Xu
発行日 2023-09-25 12:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク