Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning

要約

タイトル: オフライン強化学習のためのグラフ構造の世界モデルであるValue Memory Graph

要約:
– 強化学習(RL)手法は通常、環境に直接適用され、ポリシーを学習する
– 連続した状態アクション空間、スパースな報酬、長い時間的視野のあるいくつかの複雑な環境では、元の環境で良いポリシーを学習することが難しいことが多い
– オフラインRL設定に焦点を当てて、元の環境を抽象化した単純で分散化された世界モデルを構築することを目的としている。
– この世界モデルにRL手法を適用して、環境データではなく世界モデルに対してポリシー学習を単純化する。
– 世界モデルであるValue Memory Graph (VMG) は、頂点と有向辺がそれぞれグラフの状態とグラフのアクションを表す有向グラフベースのマルコフ決定過程(MDP)として設計されている。
– VMGの状態アクション空間は元の環境に比べ有限で比較的小さいため、VMG上で値反復アルゴリズムを直接適用してグラフ状態値を推定し、最適なグラフアクションを決定できる。
– VMGはオフラインRLデータセットから訓練され、構築される。また、抽象的なグラフアクションを元の環境の実際のアクションに変換するアクショントランスレータとともに、VMGはエージェントを制御してエピソードリターンを最大化する。
– D4RLベンチマークでの実験では、VMGがスパースな報酬と長い時間的視野があるいくつかの目的志向型タスクで現状最先端のオフライン強化学習手法を上回ることが示されている。

要約(オリジナル)

Reinforcement Learning (RL) methods are typically applied directly in environments to learn policies. In some complex environments with continuous state-action spaces, sparse rewards, and/or long temporal horizons, learning a good policy in the original environments can be difficult. Focusing on the offline RL setting, we aim to build a simple and discrete world model that abstracts the original environment. RL methods are applied to our world model instead of the environment data for simplified policy learning. Our world model, dubbed Value Memory Graph (VMG), is designed as a directed-graph-based Markov decision process (MDP) of which vertices and directed edges represent graph states and graph actions, separately. As state-action spaces of VMG are finite and relatively small compared to the original environment, we can directly apply the value iteration algorithm on VMG to estimate graph state values and figure out the best graph actions. VMG is trained from and built on the offline RL dataset. Together with an action translator that converts the abstract graph actions in VMG to real actions in the original environment, VMG controls agents to maximize episode returns. Our experiments on the D4RL benchmark show that VMG can outperform state-of-the-art offline RL methods in several goal-oriented tasks, especially when environments have sparse rewards and long temporal horizons. Code is available at https://github.com/TsuTikgiau/ValueMemoryGraph

arxiv情報

著者 Deyao Zhu,Li Erran Li,Mohamed Elhoseiny
発行日 2023-05-02 14:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク