Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning

要約

人間は、将来について推論し、反事実を想像し、新しい状況に柔軟に適応するために、世界の豊富な内部モデルを活用します。
強化学習(RL)では、世界モデルは、エージェントの行動に応じて環境がどのように進化するかを捉え、計画と一般化を促進することを目的としています。
ただし、典型的な世界モデルは、環境変数(ピクセル、物理的属性など)で直接動作し、トレーニングをゆっくりと扱いにくくすることができます。
代わりに、関連するマルチモーダル変数をキャプチャする高レベルの潜在寸法に依存することが有利かもしれません。
Global Workspace(GW)Theoryは、脳内のマルチモーダル統合と情報放送のための認知フレームワークを提供し、最近の研究では、GWの効率的な深い学習実装を導入し始めました。
ここでは、GWとワールドモデルを組み合わせたRLシステムの機能を評価します。
GW-Dreamerを標準のPPOおよび元のDreamerアルゴリズムのさまざまなバージョンと比較します。
GW潜在スペース内で夢のプロセス(つまり、精神シミュレーション)を実行することで、環境ステップが少ないトレーニングが可能になることを示します。
追加の緊急特性として、結果のモデル(その比較ベースラインではありません)は、その観測モダリティの1つ(画像またはシミュレーション属性)がないことに強い堅牢性を示します。
GWと世界モデルの組み合わせは、RLエージェントの意思決定を改善する大きな可能性を秘めていると結論付けています。

要約(オリジナル)

Humans leverage rich internal models of the world to reason about the future, imagine counterfactuals, and adapt flexibly to new situations. In Reinforcement Learning (RL), world models aim to capture how the environment evolves in response to the agent’s actions, facilitating planning and generalization. However, typical world models directly operate on the environment variables (e.g. pixels, physical attributes), which can make their training slow and cumbersome; instead, it may be advantageous to rely on high-level latent dimensions that capture relevant multimodal variables. Global Workspace (GW) Theory offers a cognitive framework for multimodal integration and information broadcasting in the brain, and recent studies have begun to introduce efficient deep learning implementations of GW. Here, we evaluate the capabilities of an RL system combining GW with a world model. We compare our GW-Dreamer with various versions of the standard PPO and the original Dreamer algorithms. We show that performing the dreaming process (i.e., mental simulation) inside the GW latent space allows for training with fewer environment steps. As an additional emergent property, the resulting model (but not its comparison baselines) displays strong robustness to the absence of one of its observation modalities (images or simulation attributes). We conclude that the combination of GW with World Models holds great potential for improving decision-making in RL agents.

arxiv情報

著者 Léopold Maytié,Roland Bertin Johannet,Rufin VanRullen
発行日 2025-02-28 15:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.NC パーマリンク