要約
高次元の知覚入力を伴う連続的な設定で強化学習アルゴリズムを広く採用するには、サンプルの効率と信頼性が依然として大きなボトルネックとなっています。
これらの課題に対処するために、我々は新しい理論的フレームワークであるRichCLD (Rich-Observation RL with Continuous Latent Dynamics)を導入します。このフレームワークでは、エージェントは高次元の観察に基づいて制御を実行しますが、環境は低次元の潜在状態とリプシッツによって支配されます。
継続的なダイナミクス。
私たちの主な貢献は、統計的および計算的に効率的であることが証明されているこの設定用の新しいアルゴリズムです。
私たちのアルゴリズムの中核は、新しい表現学習目標です。
離散ダイナミクスに合わせた事前表現学習スキームが連続設定に自然に拡張されないことを示します。
私たちの新しい目標は実用的な実装に適しており、経験的に、標準的な評価プロトコルにおける以前のスキームと比較して有利であることがわかりました。
さらに、RichCLD フレームワークの統計的複雑さについていくつかの洞察を提供します。特に、豊富な観察がない場合にサンプル効率的な学習を可能にするリプシッツネスの特定の概念が、豊富な観察の設定では不十分であることを証明します。
要約(オリジナル)
Sample-efficiency and reliability remain major bottlenecks toward wide adoption of reinforcement learning algorithms in continuous settings with high-dimensional perceptual inputs. Toward addressing these challenges, we introduce a new theoretical framework, RichCLD (Rich-Observation RL with Continuous Latent Dynamics), in which the agent performs control based on high-dimensional observations, but the environment is governed by low-dimensional latent states and Lipschitz continuous dynamics. Our main contribution is a new algorithm for this setting that is provably statistically and computationally efficient. The core of our algorithm is a new representation learning objective; we show that prior representation learning schemes tailored to discrete dynamics do not naturally extend to the continuous setting. Our new objective is amenable to practical implementation, and empirically, we find that it compares favorably to prior schemes in a standard evaluation protocol. We further provide several insights into the statistical complexity of the RichCLD framework, in particular proving that certain notions of Lipschitzness that admit sample-efficient learning in the absence of rich observations are insufficient in the rich-observation setting.
arxiv情報
著者 | Yuda Song,Lili Wu,Dylan J. Foster,Akshay Krishnamurthy |
発行日 | 2024-05-29 17:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google