要約
シミュレーションから現実への強化学習(RL)は、シミュレーションと現実世界のダイナミクスの不一致を調整するという重要な課題に直面しており、これはエージェントのパフォーマンスを著しく低下させる可能性がある。有望なアプローチは、残差関数として表現されるシミュレータのフォワードダイナミクスの補正を学習することであるが、この操作は画像のような高次元の状態では実用的でない。これを克服するために、我々はReDRAWを提案する。ReDRAWはシミュレーションで事前学習された潜在状態の自己回帰ワールドモデルであり、明示的な観測状態ではなく、潜在状態のダイナミクスの残差補正によってターゲット環境に適合させる。この適応された世界モデルを用いて、ReDRAWは、補正されたダイナミクスの下で想像されたロールアウトでRLエージェントを最適化し、実世界に展開することを可能にする。複数の視覚ベースのMuJoCoドメインと物理ロボットの視覚レーン追従タスクにおいて、ReDRAWはダイナミクスの変化を効果的にモデル化し、従来の転送手法が失敗する低データ領域でのオーバーフィッティングを回避した。
要約(オリジナル)
Simulation-to-reality reinforcement learning (RL) faces the critical challenge of reconciling discrepancies between simulated and real-world dynamics, which can severely degrade agent performance. A promising approach involves learning corrections to simulator forward dynamics represented as a residual error function, however this operation is impractical with high-dimensional states such as images. To overcome this, we propose ReDRAW, a latent-state autoregressive world model pretrained in simulation and calibrated to target environments through residual corrections of latent-state dynamics rather than of explicit observed states. Using this adapted world model, ReDRAW enables RL agents to be optimized with imagined rollouts under corrected dynamics and then deployed in the real world. In multiple vision-based MuJoCo domains and a physical robot visual lane-following task, ReDRAW effectively models changes to dynamics and avoids overfitting in low data regimes where traditional transfer methods fail.
arxiv情報
| 著者 | JB Lanier,Kyungmin Kim,Armin Karamzade,Yifei Liu,Ankita Sinha,Kat He,Davide Corsi,Roy Fox |
| 発行日 | 2025-04-03 03:41:30+00:00 |
| arxivサイト | arxiv_id(pdf) |