DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation

要約

この論文では、オフライン行動生成のための DIffusion ガイド付き DIversity (DIDI) と呼ばれる新しいアプローチを提案します。
DIDI の目標は、ラベルのないオフライン データの混合から多様なスキルを学習することです。
これは、事前学習として拡散確率モデルを活用して学習プロセスを導き、ポリシーを正規化することで実現します。
多様性と拡散誘導正則化を組み込んだ共同目標を最適化することで、オフライン データとの類似性を維持しながら、多様な行動の出現を促進します。
4 つの意思決定ドメイン (プッシュ、キッチン、ヒューマノイド、D4RL タスク) における実験結果は、DIDI が多様で差別的なスキルを発見するのに効果的であることを示しています。
また、スキルステッチングとスキル補間も導入し、学習済みスキル空間のジェネラリスト的な性質を強調します。
さらに、外部報酬関数を組み込むことで、DIDI は報酬に基づく行動の生成を可能にし、最適化されていないデータからの多様で最適な行動の学習を促進します。

要約(オリジナル)

In this paper, we propose a novel approach called DIffusion-guided DIversity (DIDI) for offline behavioral generation. The goal of DIDI is to learn a diverse set of skills from a mixture of label-free offline data. We achieve this by leveraging diffusion probabilistic models as priors to guide the learning process and regularize the policy. By optimizing a joint objective that incorporates diversity and diffusion-guided regularization, we encourage the emergence of diverse behaviors while maintaining the similarity to the offline data. Experimental results in four decision-making domains (Push, Kitchen, Humanoid, and D4RL tasks) show that DIDI is effective in discovering diverse and discriminative skills. We also introduce skill stitching and skill interpolation, which highlight the generalist nature of the learned skill space. Further, by incorporating an extrinsic reward function, DIDI enables reward-guided behavior generation, facilitating the learning of diverse and optimal behaviors from sub-optimal data.

arxiv情報

著者 Jinxin Liu,Xinghong Guo,Zifeng Zhuang,Donglin Wang
発行日 2024-05-23 17:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク