要約
タイトル:遅れ系連続時間問題のニューラルラプラス制御
要約:
– 再現的強化学習(RL)の多くの現実世界のオフライン問題には、遅延を伴う連続時間環境が存在します。
– このような環境は2つの特徴を持っており、第1に、状態x(t)は不規則な時間間隔で観測されること、第2に、現在のアクションa(t)が未知の遅延g> 0で未来の状態x(t + g)にのみ影響を与えることが含まれます。
– このような環境の代表的な例は、地球と衛星の間の通信リンクによって不規則な観測と遅延が生じる衛星制御です。
– 既存のオフラインRLアルゴリズムは、時間的に不規則な状態または既知の遅延を持つ環境で成功を収めています。しかし、時間的に不規則な観測と未知の遅延が両方存在する環境は未解決であり、難しい課題です。
– そのため、本研究では、ニューラルラプラスダイナミクスモデルとモデル予測制御(MPC)プランナを組み合わせた、オフラインデータセットから学習できる連続時間モデルベースのRL法である Neural Laplace Control を提案しています。
– 我々は連続時間遅延環境で実験的に示し、専門家のポリシーパフォーマンスに近くなることができることを示しました。
要約(オリジナル)
Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed at irregular time intervals, and secondly, the current action a(t) only affects the future state x(t + g) with an unknown delay g > 0. A prime example of such an environment is satellite control where the communication link between earth and a satellite causes irregular observations and delays. Existing offline RL algorithms have achieved success in environments with irregularly observed states in time or known delays. However, environments involving both irregular observations in time and unknown delays remains an open and challenging problem. To this end, we propose Neural Laplace Control, a continuous-time model-based offline RL method that combines a Neural Laplace dynamics model with a model predictive control (MPC) planner–and is able to learn from an offline dataset sampled with irregular time intervals from an environment that has a inherent unknown constant delay. We show experimentally on continuous-time delayed environments it is able to achieve near expert policy performance.
arxiv情報
著者 | Samuel Holt,Alihan Hüyük,Zhaozhi Qian,Hao Sun,Mihaela van der Schaar |
発行日 | 2023-04-11 01:28:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI