Uncertainty-driven Trajectory Truncation for Data Augmentation in Offline Reinforcement Learning

要約

トレーニングされた環境ダイナミクスを備えたモデルベースのオフライン強化学習 (RL) アルゴリズムは、固定サイズのデータ​​セット (品質の低いデータセットであっても) から適切なポリシーを学習できることがよくあります。
ただし、残念ながら、トレーニングされたダイナミクス モデルから生成されたサンプルが信頼できるかどうかは保証できません (たとえば、一部の合成サンプルは静的データセットのサポート領域の外側にある可能性があります)。
この問題に対処するために、軌道に沿って蓄積された不確実性が大きすぎる場合に、合成軌道を適応的に切り捨てる不確実性のある軌道切り捨て (TATU) を提案します。
私たちは理論的に TATU のパフォーマンス限界を示し、その利点を正当化します。
TATU の利点を経験的に示すために、まず、TATU を 2 つの古典的なモデルベースのオフライン RL アルゴリズム、MOPO および COMBO と組み合わせます。
さらに、TATU をいくつかの既製モデルフリーのオフライン RL アルゴリズム (BCQ など) と統合します。
D4RL ベンチマークの実験結果は、TATU がパフォーマンスを大幅に (多くの場合大幅に) 向上させることを示しています。
コードはここから入手できます。

要約(オリジナル)

Equipped with the trained environmental dynamics, model-based offline reinforcement learning (RL) algorithms can often successfully learn good policies from fixed-sized datasets, even some datasets with poor quality. Unfortunately, however, it can not be guaranteed that the generated samples from the trained dynamics model are reliable (e.g., some synthetic samples may lie outside of the support region of the static dataset). To address this issue, we propose Trajectory Truncation with Uncertainty (TATU), which adaptively truncates the synthetic trajectory if the accumulated uncertainty along the trajectory is too large. We theoretically show the performance bound of TATU to justify its benefits. To empirically show the advantages of TATU, we first combine it with two classical model-based offline RL algorithms, MOPO and COMBO. Furthermore, we integrate TATU with several off-the-shelf model-free offline RL algorithms, e.g., BCQ. Experimental results on the D4RL benchmark show that TATU significantly improves their performance, often by a large margin. Code is available here.

arxiv情報

著者 Junjie Zhang,Jiafei Lyu,Xiaoteng Ma,Jiangpeng Yan,Jun Yang,Le Wan,Xiu Li
発行日 2023-07-26 10:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク