要約
実世界のオフライン強化学習 (RL) の問題の多くには、遅延のある連続時間環境が関係しています。
このような環境は、2 つの特徴があります。1 つ目は、状態 x(t) が不規則な時間間隔で観測されること、2 つ目は、現在のアクション a(t) が将来の状態 x(t + g) に未知の遅延 g でのみ影響を与えることです。
> 0. このような環境の主な例は、地球と衛星間の通信リンクが不規則な観測と遅延を引き起こす衛星制御です。
既存のオフライン RL アルゴリズムは、不規則に観測される状態や既知の遅延がある環境で成功を収めています。
ただし、時間の不規則な観測と未知の遅延の両方を含む環境は、未解決の困難な問題のままです。
この目的のために、ニューラル ラプラス ダイナミクス モデルとモデル予測制御 (MPC) プランナーを組み合わせた連続時間モデル ベースのオフライン RL メソッドであるニューラル ラプラス コントロールを提案します。
固有の未知の一定の遅延がある環境からの時間間隔。
エキスパートに近いポリシーパフォーマンスを達成できる連続時間遅延環境で実験的に示します。
要約(オリジナル)
Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed at irregular time intervals, and secondly, the current action a(t) only affects the future state x(t + g) with an unknown delay g > 0. A prime example of such an environment is satellite control where the communication link between earth and a satellite causes irregular observations and delays. Existing offline RL algorithms have achieved success in environments with irregularly observed states in time or known delays. However, environments involving both irregular observations in time and unknown delays remains an open and challenging problem. To this end, we propose Neural Laplace Control, a continuous-time model-based offline RL method that combines a Neural Laplace dynamics model with a model predictive control (MPC) planner–and is able to learn from an offline dataset sampled with irregular time intervals from an environment that has a inherent unknown constant delay. We show experimentally on continuous-time delayed environments it is able to achieve near expert policy performance.
arxiv情報
著者 | Samuel Holt,Alihan Hüyük,Zhaozhi Qian,Hao Sun,Mihaela van der Schaar |
発行日 | 2023-02-24 12:40:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google