要約
タイトル:Quasimetric Learningを介した最適な目標達成強化学習
要約:
– 目標達成の強化学習において、最適な価値関数は特定の幾何構造、つまりquasimetric構造を持っている。
– 本論文では、Quasimetric Reinforcement Learning(QRL)という新しいRL方法を紹介し、quasimetricモデルを使用して最適な価値関数を学習する。
– 従来の方法とは異なり、QRLの目的は特にquasimetricsに設計されており、強力な理論的回復保証を提供する。
– 実証的に、discretized MountainCar環境で詳細な分析を行い、QRLの特性と、代替手法に対する優位性を特定する。
– オフラインおよびオンラインの目標到達ベンチマークにおいて、状態ベースおよび画像ベースの観測に対して、QRLはサンプル効率とパフォーマンスの両方で改善された結果を示す。
要約(オリジナル)
In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
arxiv情報
| 著者 | Tongzhou Wang,Antonio Torralba,Phillip Isola,Amy Zhang |
| 発行日 | 2023-04-03 17:59:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI