JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning

要約

モデルベースの強化学習(MBRL)の最近の進歩は、強力な拡散ワールドモデルで訓練された強化学習エージェントによって駆動されるATARI100Kベンチマークで超ヒューマンレベルのパフォーマンスを達成しました。
ただし、現在の集合体が主要なパフォーマンスの非対称性をマスクすることを特定します。MBRLエージェントは、他の人では劇的にパフォーマンスが低下しているにもかかわらず、一部のタスクで人間を劇的に上回り、前者は総メトリックを膨らませます。
これは、拡散世界モデルで訓練されたピクセルベースのエージェントで特に顕著です。
この作業では、ピクセルベースの薬剤で観察された顕著な非対称性に対処します。
すべてのタスクをエージェントオプティマルまたはヒトオプティマルとして描写し、両方のセットのメトリックを同等に重要性を提唱することにより、問題のある集約に対処します。
次に、この顕著な非対称性は、ピクセルベースの方法で世界モデルの目的で訓練された一時的に構造化された潜在的な潜在スペースの欠如によるものであると仮定します。
最後に、この問題に対処するために、共同潜在拡散の世界モデルである共同潜在拡散拡散(JEDI)を提案することを提案します。
Jediは、Atari100Kベンチマーク全体で競争力を維持しながら、人間の最適なタスクでSOTAモデルを上回り、最新のピクセルベースの拡散ベースラインよりも43%低いメモリで3倍速く走ります。
全体として、私たちの仕事は、Atari100Kで人間レベルのパフォーマンスを超えることが本当に意味することを再考します。

要約(オリジナル)

Recent advances in model-based reinforcement learning (MBRL) have achieved super-human level performance on the Atari100k benchmark, driven by reinforcement learning agents trained on powerful diffusion world models. However, we identify that the current aggregates mask a major performance asymmetry: MBRL agents dramatically outperform humans in some tasks despite drastically underperforming in others, with the former inflating the aggregate metrics. This is especially pronounced in pixel-based agents trained with diffusion world models. In this work, we address the pronounced asymmetry observed in pixel-based agents as an initial attempt to reverse the worrying upward trend observed in them. We address the problematic aggregates by delineating all tasks as Agent-Optimal or Human-Optimal and advocate for equal importance on metrics from both sets. Next, we hypothesize this pronounced asymmetry is due to the lack of temporally-structured latent space trained with the World Model objective in pixel-based methods. Lastly, to address this issue, we propose Joint Embedding DIffusion (JEDI), a novel latent diffusion world model trained end-to-end with the self-consistency objective. JEDI outperforms SOTA models in human-optimal tasks while staying competitive across the Atari100k benchmark, and runs 3 times faster with 43% lower memory than the latest pixel-based diffusion baseline. Overall, our work rethinks what it truly means to cross human-level performance in Atari100k.

arxiv情報

著者 Jing Yu Lim,Zarif Ikram,Samson Yu,Haozhe Ma,Tze-Yun Leong,Dianbo Liu
発行日 2025-05-28 08:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク