Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning

要約

タイトル:オフライン強化学習におけるパフォーマンス向上のための専門家指導対称検出によるデータ拡張

要約:

– MDP(マルコフ決定過程)の動的モデルのオフライン推定は、学習フェーズで利用可能なデータに大きく依存する問題である。
– モデルの動力学が、現在の状態と行動の一部の変換に対して不変である場合、Deep Neuralネットワークベースの正規化フローを使用したDensity Estimation法に依存するエキスパート指導パイプラインが、決定論的環境でこの構造を効果的に検出できることが、最近の研究で示された。
– 獲得された知識は、元のデータセットを拡張するために利用でき、真のモデルと学習されたモデルとの分布シフトの削減につながる。
– このようなデータ拡張技術は、オフライン強化学習アーキテクチャを採用する前に実行するための初期プロセスとして利用でき、パフォーマンスを向上させる。
– この研究では、非決定論的MDPにも対応するために、次の2つの点を提案している:1)統計的距離に基づくカテゴリ環境での検出閾値の提案、2)前述の結果が、学習したMDPの解決と、最適化されたポリシーを現実の環境に適用することで、パフォーマンスの改善につながることを示す。

要約(オリジナル)

Offline estimation of the dynamical model of a Markov Decision Process (MDP) is a non-trivial task that greatly depends on the data available in the learning phase. Sometimes the dynamics of the model is invariant with respect to some transformations of the current state and action. Recent works showed that an expert-guided pipeline relying on Density Estimation methods as Deep Neural Network based Normalizing Flows effectively detects this structure in deterministic environments, both categorical and continuous-valued. The acquired knowledge can be exploited to augment the original data set, leading eventually to a reduction in the distributional shift between the true and the learned model. Such data augmentation technique can be exploited as a preliminary process to be executed before adopting an Offline Reinforcement Learning architecture, increasing its performance. In this work we extend the paradigm to also tackle non-deterministic MDPs, in particular, 1) we propose a detection threshold in categorical environments based on statistical distances, and 2) we show that the former results lead to a performance improvement when solving the learned MDP and then applying the optimized policy in the real environment.

arxiv情報

著者 Giorgio Angelotti,Nicolas Drougard,Caroline P. C. Chanel
発行日 2023-04-12 14:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク