要約
オフライン強化学習 (RL) により、事前に収集されたオフライン データセットからのポリシー学習が可能になり、環境と直接対話する必要性が軽減されます。
ただし、オフライン データセットの品質によって制限されるため、通常、次善のデータセットでは十分に適格なポリシーを学習できません。
最適な実証が不十分なデータセットに対処するために、より高品質のサンプルを増強するための新しい目標条件付き拡散ベースの手法である目標条件付きデータ拡張 (GODA) を導入します。
生成モデリングの最近の進歩を活用して、GODA にはさまざまな選択メカニズムを備えた新しいリターン指向の目標条件が組み込まれています。
具体的には、制御可能なスケーリング手法を導入して、データ サンプリング中に強化されたリターンベースのガイダンスを提供します。
GODA は、元のオフライン データセットの包括的な分布表現を学習しながら、選択的により高い収益を目標とした新しいデータを生成することで、限られた最適なデモンストレーションの有用性を最大化します。
さらに、ノイズのある入力と条件を処理し、目標指向のガイダンスの捕捉を強化するための新しい適応ゲート型コンディショニング方法を提案します。
D4RL ベンチマークと実際の課題、特に交通信号制御 (TSC) タスクに関する実験を実施し、さまざまなオフライン RL アルゴリズムにわたる最先端のデータ拡張手法と比較して、データ品質と優れたパフォーマンスを向上させる GODA の有効性を実証します。
。
要約(オリジナル)
Offline reinforcement learning (RL) enables policy learning from pre-collected offline datasets, relaxing the need to interact directly with the environment. However, limited by the quality of offline datasets, it generally fails to learn well-qualified policies in suboptimal datasets. To address datasets with insufficient optimal demonstrations, we introduce Goal-cOnditioned Data Augmentation (GODA), a novel goal-conditioned diffusion-based method for augmenting samples with higher quality. Leveraging recent advancements in generative modeling, GODA incorporates a novel return-oriented goal condition with various selection mechanisms. Specifically, we introduce a controllable scaling technique to provide enhanced return-based guidance during data sampling. GODA learns a comprehensive distribution representation of the original offline datasets while generating new data with selectively higher-return goals, thereby maximizing the utility of limited optimal demonstrations. Furthermore, we propose a novel adaptive gated conditioning method for processing noised inputs and conditions, enhancing the capture of goal-oriented guidance. We conduct experiments on the D4RL benchmark and real-world challenges, specifically traffic signal control (TSC) tasks, to demonstrate GODA’s effectiveness in enhancing data quality and superior performance compared to state-of-the-art data augmentation methods across various offline RL algorithms.
arxiv情報
著者 | Xingshuai Huang,Di Wu Member,Benoit Boulet |
発行日 | 2024-12-29 16:42:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google