要約
モデルベースの推論やプランニングによって制御問題を解決するために、エージェントはその行動が世界の状態にどのような影響を与えるかを知る必要がある。エージェントが自由にできる行動は、しばしば体系的な方法で環境の状態を変化させる。しかし、世界のモデル化のための既存の技術は、行動の効果がそのような系統的な方法で表現されることを保証していない。我々は、潜在的なダイナミクスを正則化し、エージェントの行動の効果をより予測しやすくするワールドモデルであるパーシモンシー潜在空間モデル(PLSM)を導入する。我々のアプローチは、潜在的な状態と、行動がエージェントの潜在的な状態にもたらす変化との間の相互情報を最小化し、その結果、状態がダイナミクスに持つ依存性を最小化する。これにより、ワールドモデルはソフトに状態不変となる。我々はPLSMを、i)将来の潜在状態予測、ii)プランニング、iii)モデルフリー強化学習に用いられる様々なモデルクラスと組み合わせる。我々は、我々の正則化が、精度、汎化、そして下流のタスクにおける性能を向上させることを発見し、世界モデルにおける行動の体系的な取り扱いの重要性を強調する。
要約(オリジナル)
To solve control problems via model-based reasoning or planning, an agent needs to know how its actions affect the state of the world. The actions an agent has at its disposal often change the state of the environment in systematic ways. However, existing techniques for world modelling do not guarantee that the effect of actions are represented in such systematic ways. We introduce the Parsimonious Latent Space Model (PLSM), a world model that regularizes the latent dynamics to make the effect of the agent’s actions more predictable. Our approach minimizes the mutual information between latent states and the change that an action produces in the agent’s latent state, in turn minimizing the dependence the state has on the dynamics. This makes the world model softly state-invariant. We combine PLSM with different model classes used for i) future latent state prediction, ii) planning, and iii) model-free reinforcement learning. We find that our regularization improves accuracy, generalization, and performance in downstream tasks, highlighting the importance of systematic treatment of actions in world models.
arxiv情報
著者 | Tankred Saanum,Peter Dayan,Eric Schulz |
発行日 | 2024-11-01 15:55:34+00:00 |
arxivサイト | arxiv_id(pdf) |