Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

要約

AIの長年の目標は、以前に見えなかった環境を含むさまざまな環境でさまざまなタスクを解決できるエージェントを構築することです。
この課題に取り組む2つの支配的なアプローチ:(i)試行錯誤を通じてポリシーを学習する補強学習(RL)、および(ii)学習または既知のダイナミクスモデルを使用してアクションを計画する最適な制御。
ただし、彼らの相対的な長所と短所は、報酬の注釈なしでオフラインの軌跡からエージェントが学習しなければならない設定では、目の足の依存していないままです。
この作業では、さまざまな品質のデータセットの下で、さまざまなRLと制御ベースのメソッドのパフォーマンスを体系的に分析します。
RL側では、ゴールコンディショニングとゼロショットのアプローチを検討します。
コントロール側では、ジョイント埋め込み予測アーキテクチャ(JEPA)を使用して潜在的なダイナミクスモデルをトレーニングし、計画に使用します。
データの多様性、軌跡の品質、環境の変動など、データセットのプロパティなど、これらのアプローチのパフォーマンスにどのように影響するかを研究します。
我々の結果は、モデルのないRLが豊富で高品質のデータが利用可能になった場合に優れていることを示していますが、モデルベースの計画は、新しい環境レイアウト、軌跡ステッチ、およびデータ効率に一般化に優れています。
特に、潜在的なダイナミクスモデルでの計画は、最適ではないデータからのゼロショット一般化のための有望なアプローチとして浮上しています。

要約(オリジナル)

A long-standing goal in AI is to build agents that can solve a variety of tasks across different environments, including previously unseen ones. Two dominant approaches tackle this challenge: (i) reinforcement learning (RL), which learns policies through trial and error, and (ii) optimal control, which plans actions using a learned or known dynamics model. However, their relative strengths and weaknesses remain underexplored in the setting where agents must learn from offline trajectories without reward annotations. In this work, we systematically analyze the performance of different RL and control-based methods under datasets of varying quality. On the RL side, we consider goal-conditioned and zero-shot approaches. On the control side, we train a latent dynamics model using the Joint Embedding Predictive Architecture (JEPA) and use it for planning. We study how dataset properties-such as data diversity, trajectory quality, and environment variability-affect the performance of these approaches. Our results show that model-free RL excels when abundant, high-quality data is available, while model-based planning excels in generalization to novel environment layouts, trajectory stitching, and data-efficiency. Notably, planning with a latent dynamics model emerges as a promising approach for zero-shot generalization from suboptimal data.

arxiv情報

著者 Vlad Sobal,Wancong Zhang,Kynghyun Cho,Randall Balestriero,Tim G. J. Rudner,Yann LeCun
発行日 2025-02-20 18:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク