Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

要約

タイトル:Quasimetric Learningによる最適目標達成型強化学習

要約:
– 強化学習における目標達成型問題において、最適な価値関数はquasimetric構造と呼ばれる特定の幾何学構造を持っている。
– 本論文では、quasimetricモデルを使用して最適な価値関数を学習する新しい強化学習手法「Quasimetric Reinforcement Learning (QRL)」を紹介する。
– 先行研究と異なり、QRLの目的はquasimetricsに特化して設計されており、その理論的回復保証が提供される。
– 実証的には、離散化されたMountainCar環境で徹底的な分析を行い、QRLの特性と代替手法に対する優位性を特定した。
– オフラインおよびオンラインの目標達成ベンチマークでは、QRLは状態ベースと画像ベースの観測の両方で、サンプル効率性と性能の向上を実証した。

要約(オリジナル)

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.

arxiv情報

著者 Tongzhou Wang,Antonio Torralba,Phillip Isola,Amy Zhang
発行日 2023-04-06 22:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク