Uncertainty-driven Trajectory Truncation for Model-based Offline Reinforcement Learning

要約

タイトル:モデルベースオフライン強化学習のための不確実性駆動軌跡切り捨て

要約:

– 学習済みの環境ダイナミクスを備えたモデルベースオフライン強化学習アルゴリズムは、固定サイズのデータセットから、品質の悪いデータセットまで、しばしば良好な方針を学習できます。
– しかし、トレーニングされたダイナミクスモデルから生成されたサンプルが信頼できるとは保証できないため、トラブルが発生することがあります。
– この問題に対処するために、私たちは不確実性ドリブン軌跡切り捨て(TATU)を提案しています。軌跡全体に沿った蓄積不確実性が大きすぎる場合、シンセティックトラジェクトリを動的に切り捨てることができます。
– TATUのパフォーマンスバウンドを理論的に証明し、利点を正当化しています。
– TATUの利点を実証するために、MOPOおよびCOMBOの2つの古典的なモデルベースオフラインRLアルゴリズムと組み合わせ、さらにBCQなどのオフシェルフのモデルフリーオフラインRLアルゴリズムにTATUを統合しました。
– D4RLベンチマークでの実験結果は、TATUが大幅に性能を向上させることを示しています。

要約(オリジナル)

Equipped with the trained environmental dynamics, model-based offline reinforcement learning (RL) algorithms can often successfully learn good policies from fixed-sized datasets, even some datasets with poor quality. Unfortunately, however, it can not be guaranteed that the generated samples from the trained dynamics model are reliable (e.g., some synthetic samples may lie outside of the support region of the static dataset). To address this issue, we propose Trajectory Truncation with Uncertainty (TATU), which adaptively truncates the synthetic trajectory if the accumulated uncertainty along the trajectory is too large. We theoretically show the performance bound of TATU to justify its benefits. To empirically show the advantages of TATU, we first combine it with two classical model-based offline RL algorithms, MOPO and COMBO. Furthermore, we integrate TATU with several off-the-shelf model-free offline RL algorithms, e.g., BCQ. Experimental results on the D4RL benchmark show that TATU significantly improves their performance, often by a large margin.

arxiv情報

著者 Junjie Zhang,Jiafei Lyu,Xiaoteng Ma,Jiangpeng Yan,Jun Yang,Le Wan,Xiu Li
発行日 2023-04-10 15:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク