要約
現実世界の環境に学習制御ポリシーを展開することは、基本的な課題をもたらします。
システムのダイナミクスが予期せず変化すると、モデルが新しいデータで再試行されるまでパフォーマンスが低下します。
迅速な適応のための暗黙の参照軌跡として世界モデルの予測を使用する二重制御フレームワークであるReflexive World Models(RWM)を紹介します。
私たちの方法は、制御問題を、強化学習と迅速な潜在的な制御を介して堅牢な運動実行を通じて、長期的な報酬の最大化に分離します。
このデュアルアーキテクチャは、ほぼ最適なパフォーマンスを維持しながら、モデルベースのRLベースラインと比較して、オンライン計算コストが低いため、大幅に速い適応を実現します。
このアプローチは、強化学習を通じて柔軟なポリシー学習の利点を、急速なエラー補正機能と迅速なエラー補正機能を兼ね備えており、さまざまなダイナミクスの下で高次元連続制御タスクのパフォーマンスを維持するための原則的なアプローチを提供します。
要約(オリジナル)
Deploying learned control policies in real-world environments poses a fundamental challenge. When system dynamics change unexpectedly, performance degrades until models are retrained on new data. We introduce Reflexive World Models (RWM), a dual control framework that uses world model predictions as implicit reference trajectories for rapid adaptation. Our method separates the control problem into long-term reward maximization through reinforcement learning and robust motor execution through rapid latent control. This dual architecture achieves significantly faster adaptation with low online computational cost compared to model-based RL baselines, while maintaining near-optimal performance. The approach combines the benefits of flexible policy learning through reinforcement learning with rapid error correction capabilities, providing a principled approach to maintaining performance in high-dimensional continuous control tasks under varying dynamics.
arxiv情報
著者 | Carlos Stein Brito,Daniel McNamee |
発行日 | 2025-05-21 14:46:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google