要約
表現学習は、次元の呪いを管理することにより、強化学習において重要な役割を果たします。
アルゴリズムの代表的なクラスは、確率遷移ダイナミクスのスペクトル分解を利用して、理想化された設定で強力な理論的特性を享受する表現を構築します。
ただし、現在のスペクトル法は、探査の問題を考慮せずに、状態のみの集約用に構築され、ポリシーに依存する遷移カーネルから導出されるため、適用性が制限されています。
これらの問題に対処するために、代替のスペクトル手法であるスペクトル分解表現 (SPEDER) を提案します。これは、データ収集ポリシーへの誤った依存を誘発することなく、ダイナミクスから状態アクションの抽象化を抽出し、探査と搾取のトレードのバランスもとります。
学習中はオフ。
理論的な分析により、オンラインとオフラインの両方の設定で、提案されたアルゴリズムのサンプル効率が確立されます。
さらに、実験的な調査では、いくつかのベンチマークで現在の最先端のアルゴリズムよりも優れたパフォーマンスが実証されています。
要約(オリジナル)
Representation learning often plays a critical role in reinforcement learning by managing the curse of dimensionality. A representative class of algorithms exploits a spectral decomposition of the stochastic transition dynamics to construct representations that enjoy strong theoretical properties in an idealized setting. However, current spectral methods suffer from limited applicability because they are constructed for state-only aggregation and derived from a policy-dependent transition kernel, without considering the issue of exploration. To address these issues, we propose an alternative spectral method, Spectral Decomposition Representation (SPEDER), that extracts a state-action abstraction from the dynamics without inducing spurious dependence on the data collection policy, while also balancing the exploration-versus-exploitation trade-off during learning. A theoretical analysis establishes the sample efficiency of the proposed algorithm in both the online and offline settings. In addition, an experimental investigation demonstrates superior performance over current state-of-the-art algorithms across several benchmarks.
arxiv情報
著者 | Tongzheng Ren,Tianjun Zhang,Lisa Lee,Joseph E. Gonzalez,Dale Schuurmans,Bo Dai |
発行日 | 2023-03-07 16:26:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google