Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning

要約

オフライン強化学習 (RL) 手法は、以前の経験を活用して、データ収集に使用される動作ポリシーよりも優れたポリシーを学習します。
専門家のデモンストレーションからデータが収集されることを前提とする動作クローン作成とは対照的に、オフライン RL は非専門家データやマルチモーダルな動作ポリシーを扱うことができます。
ただし、オフライン RL アルゴリズムは、トレーニング中のオンライン対話が欠如しているため、分布の変化を処理し、ポリシーを効果的に表現する際に課題に直面しています。
オフライン RL に関する以前の研究では、条件付き拡散モデルを使用してデータセット内のマルチモーダルな動作を表現しました。
それにもかかわらず、これらの方法は、分布外状態の一般化を緩和するように調整されていません。
我々は、分布外一般化問題に対処するために、最近のクラスの拡散政策に状態再構築特徴学習を組み込んだ、拡散政策のための状態再構築(SRDP)と呼ばれる新しい方法を導入します。
状態再構成損失は、状態のより記述的な表現学習を促進し、分布外 (OOD) 状態によって引き起こされる分布シフトを軽減します。
SRDP の OOD 一般化を以前のアルゴリズムと比較して説明するために、新しい 2D マルチモーダル コンテキスト バンディット環境を設計します。
さらに、D4RL 連続制御ベンチマーク、つまり 8-DoF アリのナビゲーションと、ハーフチーター、ホッパー、ウォーカー 2d の前方移動のモデルのパフォーマンスを評価し、最先端の結果を達成しました。

要約(オリジナル)

Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for data collection. In contrast to behavior cloning, which assumes the data is collected from expert demonstrations, offline RL can work with non-expert data and multimodal behavior policies. However, offline RL algorithms face challenges in handling distribution shifts and effectively representing policies due to the lack of online interaction during training. Prior work on offline RL uses conditional diffusion models to represent multimodal behavior in the dataset. Nevertheless, these methods are not tailored toward alleviating the out-of-distribution state generalization. We introduce a novel method, named State Reconstruction for Diffusion Policies (SRDP), incorporating state reconstruction feature learning in the recent class of diffusion policies to address the out-of-distribution generalization problem. State reconstruction loss promotes more descriptive representation learning of states to alleviate the distribution shift incurred by the out-of-distribution (OOD) states. We design a novel 2D Multimodal Contextual Bandit environment to illustrate the OOD generalization of SRDP compared to prior algorithms. In addition, we assess the performance of our model on D4RL continuous control benchmarks, namely the navigation of an 8-DoF ant and forward locomotion of half-cheetah, hopper, and walker2d, achieving state-of-the-art results.

arxiv情報

著者 Suzan Ece Ada,Erhan Oztop,Emre Ugur
発行日 2023-08-31 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO パーマリンク