Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

要約

オフライン強化学習 (RL) は、環境と対話することなく、事前に収集されたデータセットからポリシーを学習することで、現実世界のタスクに対する魅力的なアプローチを提供します。
ただし、既存のオフライン RL アルゴリズムのパフォーマンスは、データセットの規模と状態アクション空間の範囲に大きく依存します。
現実世界のデータ収集は多くの場合高価で制御不能であるため、データセットが小さく、対象範囲が狭くなり、オフライン RL の実際の展開に重大な課題が生じます。
この論文では、システム ダイナミクスの基本的な対称性を活用することで、小規模なデータセットの下でオフライン RL パフォーマンスを大幅に向上できるという新しい洞察を提供します。
具体的には、順方向潜在ダイナミクスと逆方向潜在ダイナミクスのペア間の一貫性を確立する、時間反転対称性 (T 対称) 強制ダイナミクス モデル (TDM) を提案します。
TDM は、小さなデータセットに対する適切な動作の表現と、T 対称性への準拠に基づく OOD サンプルに対する新しい信頼性測定の両方を提供します。
これらは、あまり保守的でないポリシー制約と信頼性の高い潜在空間データ拡張手順を備えた新しいオフライン RL アルゴリズム (TSRL) を構築するために容易に使用できます。
広範な実験に基づいて、TSRL は元のサンプルのわずか 1% の小さなベンチマーク データセットで優れたパフォーマンスを達成し、データ効率と一般化性の点で最近のオフライン RL アルゴリズムを大幅に上回っていることがわかりました。

要約(オリジナル)

Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.

arxiv情報

著者 Peng Cheng,Xianyuan Zhan,Zhihao Wu,Wenjia Zhang,Shoucheng Song,Han Wang,Youfang Lin,Li Jiang
発行日 2023-06-08 10:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク