要約
監視されていない強化学習(URL)は、報酬のない環境で多様な状態またはスキルを探索し、下流のタスクへの効率的な適応を促進することにより、訓練前のエージェントを目指しています。
エージェントは、監視されていない探索中に外因性の報酬にアクセスできないため、既存の方法は、探索されたデータをモデル化し、さらなる調査を促進するために本質的な報酬を設計します。
ただし、探索されたデータは常に不均一であり、本質的な報酬モデルと事前に訓練されたポリシーの両方の強力な表現能力の要件を提起しています。
この作業では、探索されたデータに適合する拡散モデルの強力な表現力を活用し、同時に探索を強化し、下流タスクの効率的な初期化を提供する探索的拡散モデル(EXDM)を提案します。
具体的には、EXDMは、拡散モデルを使用したリプレイバッファー内の収集されたデータの分布を正確に推定し、スコアベースの本質的な報酬を導入し、エージェントが訪問の少ない状態を探索するよう奨励します。
事前に訓練されたポリシーを取得した後、EXDMはダウンストリームタスクへの迅速な適応を可能にします。
詳細には、微調整拡散ポリシーの理論分析と実用的なアルゴリズムを提供し、トレーニングの不安定性やマルチステップサンプリングによって引き起こされる計算の複雑さなどの重要な課題に対処します。
広範な実験は、EXDMが、特に構造的に複雑な環境で、効率的な監視されていない探索と速い微調整下流タスクで既存のSOTAベースラインを上回ることを示しています。
要約(オリジナル)
Unsupervised reinforcement learning (URL) aims to pre-train agents by exploring diverse states or skills in reward-free environments, facilitating efficient adaptation to downstream tasks. As the agent cannot access extrinsic rewards during unsupervised exploration, existing methods design intrinsic rewards to model the explored data and encourage further exploration. However, the explored data are always heterogeneous, posing the requirements of powerful representation abilities for both intrinsic reward models and pre-trained policies. In this work, we propose the Exploratory Diffusion Model (ExDM), which leverages the strong expressive ability of diffusion models to fit the explored data, simultaneously boosting exploration and providing an efficient initialization for downstream tasks. Specifically, ExDM can accurately estimate the distribution of collected data in the replay buffer with the diffusion model and introduces the score-based intrinsic reward, encouraging the agent to explore less-visited states. After obtaining the pre-trained policies, ExDM enables rapid adaptation to downstream tasks. In detail, we provide theoretical analyses and practical algorithms for fine-tuning diffusion policies, addressing key challenges such as training instability and computational complexity caused by multi-step sampling. Extensive experiments demonstrate that ExDM outperforms existing SOTA baselines in efficient unsupervised exploration and fast fine-tuning downstream tasks, especially in structurally complicated environments.
arxiv情報
著者 | Chengyang Ying,Huayu Chen,Xinning Zhou,Zhongkai Hao,Hang Su,Jun Zhu |
発行日 | 2025-05-16 17:18:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google