Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning

要約

オフライン強化学習(RL)の目標は、固定データセットから高性能ポリシーを抽出し、分散分布(OOD)サンプルによるパフォーマンスの低下を最小限に抑えることです。
オフラインモデルベースのRL(MBRL)は、学習したダイナミクスモデルを介して合成された増強で状態アクション遷移を濃縮することにより、OODの問題を改善する有望なアプローチです。
残念ながら、独創的なオフラインのMBRLメソッドは、しばしばまばらな報酬の長い様子のタスクで苦労しています。
この作業では、生の状態空間ではなく、一時的に構造化された潜在空間で拡張遷移を生成する、時間的距離認識遷移増強(TempData)と呼ばれる新しいMBRLフレームワークを導入します。
長老の動作をモデル化するために、Tempdataは、状態空間の軌跡レベルと遷移レベルの両方からの時間的距離をキャプチャする潜在的な抽象化を学びます。
私たちの実験では、TempDataが以前のオフラインMBRLメソッドを上回り、D4RL Antmaze、Frankakitchen、Calvin、およびPixelベースのフランクカイチェンでの拡散ベースの軌跡の増強とゴールコンディショニングRLのパフォーマンスを一致または上回ることを確認しています。

要約(オリジナル)

The goal of offline reinforcement learning (RL) is to extract a high-performance policy from the fixed datasets, minimizing performance degradation due to out-of-distribution (OOD) samples. Offline model-based RL (MBRL) is a promising approach that ameliorates OOD issues by enriching state-action transitions with augmentations synthesized via a learned dynamics model. Unfortunately, seminal offline MBRL methods often struggle in sparse-reward, long-horizon tasks. In this work, we introduce a novel MBRL framework, dubbed Temporal Distance-Aware Transition Augmentation (TempDATA), that generates augmented transitions in a temporally structured latent space rather than in raw state space. To model long-horizon behavior, TempDATA learns a latent abstraction that captures a temporal distance from both trajectory and transition levels of state space. Our experiments confirm that TempDATA outperforms previous offline MBRL methods and achieves matching or surpassing the performance of diffusion-based trajectory augmentation and goal-conditioned RL on the D4RL AntMaze, FrankaKitchen, CALVIN, and pixel-based FrankaKitchen.

arxiv情報

著者 Dongsu Lee,Minhae Kwon
発行日 2025-05-19 14:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク