Model-Based Reinforcement Learning with Isolated Imaginations


ワールド モデルは、視覚ベースのインタラクティブ システムでのアクションの結果を学習します。
この問題に対処するために、モデルベースの強化学習アプローチである Iso-Dream++ を提案します。これには 2 つの主な貢献があります。
これにより、他の車両の動きを予測できる自動運転車など、野生の混合ダイナミクス ソースを分離することにより、潜在的なリスクを回避することで、長期的な視覚運動制御タスクを実現できます。
私たちの実証研究は、Iso-Dream++ が CARLA と DeepMind Control で既存の強化学習モデルよりも大幅に優れていることを示しています。


World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios like autonomous driving, noncontrollable dynamics that are independent or sparsely dependent on action signals often exist, making it challenging to learn effective world models. To address this issue, we propose Iso-Dream++, a model-based reinforcement learning approach that has two main contributions. First, we optimize the inverse dynamics to encourage the world model to isolate controllable state transitions from the mixed spatiotemporal variations of the environment. Second, we perform policy optimization based on the decoupled latent imaginations, where we roll out noncontrollable states into the future and adaptively associate them with the current controllable state. This enables long-horizon visuomotor control tasks to benefit from isolating mixed dynamics sources in the wild, such as self-driving cars that can anticipate the movement of other vehicles, thereby avoiding potential risks. On top of our previous work, we further consider the sparse dependencies between controllable and noncontrollable states, address the training collapse problem of state decoupling, and validate our approach in transfer learning setups. Our empirical study demonstrates that Iso-Dream++ outperforms existing reinforcement learning models significantly on CARLA and DeepMind Control.


著者 Minting Pan,Xiangming Zhu,Yunbo Wang,Xiaokang Yang
発行日 2023-03-27 02:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク