Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

要約

拡散モデルは、視覚と NLP における高度に表現力豊かな生成機能を実証しています。
強化学習 (RL) に関する最近の研究では、オフライン データセットで複雑なポリシーや軌道をモデル化する場合にも拡散モデルが強力であることが示されています。
しかし、これらの取り組みは、マルチタスクの苦境に対処できるジェネラリストエージェントが存在しないシングルタスクの設定に限定されています。
この論文では、大規模なマルチタスクのオフライン データをモデル化する際の単一拡散モデルの有効性を調査することを目的としていますが、これは多様でマルチモーダルなデータ分散により困難になる可能性があります。
具体的には、Transformer バックボーンを組み込んだ拡散ベースの手法であり、マルチタスクのオフライン設定での生成計画とデータ合成の学習を促進する、マルチタスク拡散モデル (\textsc{MTDiff}) を提案します。
\textsc{MTDiff} は、マルチタスク データで利用可能な膨大な量の知識を活用し、タスク間で暗黙的な知識共有を実行します。
生成計画に関しては、\textsc{MTDiff} が Meta-World の 50 のタスクと Maze2D の 8 つのマップにわたって最先端のアルゴリズムを上回るパフォーマンスを示していることがわかりました。
データ合成の場合、\textsc{MTDiff} は、プロンプトとして 1 つのデモンストレーションが与えられたテスト タスク用の高品質データを生成します。これにより、未確認のタスクについても低品質のデータセットが強化されます。

要約(オリジナル)

Diffusion models have demonstrated highly-expressive generative capabilities in vision and NLP. Recent studies in reinforcement learning (RL) have shown that diffusion models are also powerful in modeling complex policies or trajectories in offline datasets. However, these works have been limited to single-task settings where a generalist agent capable of addressing multi-task predicaments is absent. In this paper, we aim to investigate the effectiveness of a single diffusion model in modeling large-scale multi-task offline data, which can be challenging due to diverse and multimodal data distribution. Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a diffusion-based method that incorporates Transformer backbones and prompt learning for generative planning and data synthesis in multi-task offline settings. \textsc{MTDiff} leverages vast amounts of knowledge available in multi-task data and performs implicit knowledge sharing among tasks. For generative planning, we find \textsc{MTDiff} outperforms state-of-the-art algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given a single demonstration as a prompt, which enhances the low-quality datasets for even unseen tasks.

arxiv情報

著者 Haoran He,Chenjia Bai,Kang Xu,Zhuoran Yang,Weinan Zhang,Dong Wang,Bin Zhao,Xuelong Li
発行日 2023-10-10 13:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク