要約
強化学習 (RL) と最適制御におけるデフォルトの仮定は、観測値が固定クロック サイクル上の離散時点に到着するというものです。
しかし、多くのアプリケーションには、原則として時間の離散化を管理できる連続時間システムが含まれています。
RL 手法に対する時間離散化の影響は、既存の理論では完全に特徴づけられていませんが、その影響をより詳細に分析することで、データ効率を改善する機会が明らかになる可能性があります。
我々は、LQR システムのモンテカルロ政策評価を分析することでこのギャップに対処し、値推定における近似と統計誤差の間の基本的なトレードオフを明らかにします。
重要なのは、これら 2 つのエラーは時間離散化とは異なる動作をするため、特定のデータ バジェットに対して最適な時間分解能が選択されることです。
これらの発見は、時間解像度を管理することで、有限データを使用する LQR システムにおけるポリシー評価効率を向上できる可能性があることを示しています。
実験的に、LQR インスタンスと非線形連続制御の標準 RL ベンチマークの数値シミュレーションにおけるトレードオフを実証します。
要約(オリジナル)
A default assumption in reinforcement learning (RL) and optimal control is that observations arrive at discrete time points on a fixed clock cycle. Yet, many applications involve continuous-time systems where the time discretization, in principle, can be managed. The impact of time discretization on RL methods has not been fully characterized in existing theory, but a more detailed analysis of its effect could reveal opportunities for improving data-efficiency. We address this gap by analyzing Monte-Carlo policy evaluation for LQR systems and uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently to time discretization, leading to an optimal choice of temporal resolution for a given data budget. These findings show that managing the temporal resolution can provably improve policy evaluation efficiency in LQR systems with finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and standard RL benchmarks for non-linear continuous control.
arxiv情報
著者 | Zichen Zhang,Johannes Kirschner,Junxi Zhang,Francesco Zanini,Alex Ayoub,Masood Dehghan,Dale Schuurmans |
発行日 | 2024-01-16 06:59:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google