Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning

要約

オフライン強化学習 (RL) 手法は、過去の経験を活用して、経験の収集に使用される行動ポリシーよりも優れたポリシーを学習します。
専門家のデモンストレーションからデータが収集されることを前提とする動作クローン作成とは対照的に、オフライン RL は非専門家データやマルチモーダルな動作ポリシーを扱うことができます。
ただし、オフライン RL アルゴリズムは、トレーニング中のオンライン対話が欠如しているため、分布の変化を処理し、ポリシーを効果的に表現する際に課題に直面しています。
オフライン RL に関する以前の研究では、条件付き拡散モデルを使用して、データセット内のマルチモーダルな動作を表す表現ポリシーを取得しました。
それにもかかわらず、それらは分布外状態の一般化を緩和するように調整されていません。
分布外一般化問題に対処するために、最近のクラスの拡散政策に状態再構成特徴学習を組み込んだ新しい方法を導入します。
状態再構成損失は、状態のより記述的な表現学習を促進し、分布外の状態によって生じる分布シフトを軽減します。
提案したモデルを実証および評価するために、2D マルチモーダル コンテキスト バンディット環境を設計します。
私たちはこの新しい環境だけでなく、いくつかの D4RL ベンチマーク タスクでもモデルのパフォーマンスを評価し、最先端の結果を達成しました。

要約(オリジナル)

Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for experience collection. In contrast to behavior cloning, which assumes the data is collected from expert demonstrations, offline RL can work with non-expert data and multimodal behavior policies. However, offline RL algorithms face challenges in handling distribution shifts and effectively representing policies due to the lack of online interaction during training. Prior work on offline RL uses conditional diffusion models to obtain expressive policies to represent multimodal behavior in the dataset. Nevertheless, they are not tailored toward alleviating the out-of-distribution state generalization. We introduce a novel method incorporating state reconstruction feature learning in the recent class of diffusion policies to address the out-of-distribution generalization problem. State reconstruction loss promotes more descriptive representation learning of states to alleviate the distribution shift incurred by the out-of-distribution states. We design a 2D Multimodal Contextual Bandit environment to demonstrate and evaluate our proposed model. We assess the performance of our model not only in this new environment but also on several D4RL benchmark tasks, achieving state-of-the-art results.

arxiv情報

著者 Suzan Ece Ada,Erhan Oztop,Emre Ugur
発行日 2023-07-10 17:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO パーマリンク