Model-Based Reinforcement Learning with Isolated Imaginations

要約

世界モデルは、ビジョンベースの対話型システムでのアクションの結果を学習します。
ただし、自動運転などの実際のシナリオでは、アクション信号に独立しているか、またはあまり依存しない制御不可能なダイナミクスが存在することが多く、効果的な世界モデルを学習することが困難になります。
この問題に対処するために、私たちは 2 つの主な貢献を持つモデルベースの強化学習アプローチである Iso-Dream++ を提案します。
まず、逆ダイナミクスを最適化して、ワールド モデルが環境の混合時空間変動から制御可能な状態遷移を分離できるようにします。
第 2 に、切り離された潜在的な想像力に基づいてポリシーの最適化を実行します。そこでは、制御不可能な状態を将来に展開し、それらを現在の制御可能な状態に適応的に関連付けます。
これにより、長期にわたる視覚運動制御タスクは、他の車両の動きを予測できる自動運転車など、現実の混合ダイナミクス ソースを分離することで恩恵を受けることができ、潜在的なリスクを回避できます。
これまでの研究に加えて、制御可能な状態と制御不可能な状態の間の疎な依存関係をさらに検討し、状態デカップリングのトレーニング崩壊問題に対処し、転移学習セットアップにおけるアプローチを検証します。
私たちの実証研究は、Iso-Dream++ が CARLA および DeepMind Control 上で既存の強化学習モデルを大幅に上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios like autonomous driving, noncontrollable dynamics that are independent or sparsely dependent on action signals often exist, making it challenging to learn effective world models. To address this issue, we propose Iso-Dream++, a model-based reinforcement learning approach that has two main contributions. First, we optimize the inverse dynamics to encourage the world model to isolate controllable state transitions from the mixed spatiotemporal variations of the environment. Second, we perform policy optimization based on the decoupled latent imaginations, where we roll out noncontrollable states into the future and adaptively associate them with the current controllable state. This enables long-horizon visuomotor control tasks to benefit from isolating mixed dynamics sources in the wild, such as self-driving cars that can anticipate the movement of other vehicles, thereby avoiding potential risks. On top of our previous work, we further consider the sparse dependencies between controllable and noncontrollable states, address the training collapse problem of state decoupling, and validate our approach in transfer learning setups. Our empirical study demonstrates that Iso-Dream++ outperforms existing reinforcement learning models significantly on CARLA and DeepMind Control.

arxiv情報

著者 Minting Pan,Xiangming Zhu,Yitao Zheng,Yunbo Wang,Xiaokang Yang
発行日 2023-11-17 11:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク