Model Predictive Control with Self-supervised Representation Learning

要約

タイトル: 自己教師信号を使用したモデル予測制御

要約:
– モデルフリーまたはモデルベースの学習法のどちらかが他方に比べて陳腐化するような大きな進展は見られない。
– それぞれの方法には、サンプル効率性や計算の効率性など、それぞれの利点がある。
– しかし、これらを組み合わせることで、それぞれの利点を組み合わせることができ、より良いパフォーマンスを発揮できるようになる。
– TD-MPCフレームワークは、このアプローチの例である。このアプローチでは、ワールドモデルとモデル予測制御を組み合わせて、価値関数の良好な初期推定値を得る方法が提唱されている。
– 一方で、Q関数は良好な長期推定値を提供するために使用される。
– MuZeroなどのアルゴリズムと同様に、潜在状態表現が使用され、タスクに関連する情報のみが符号化されるようになっている。
– この論文では、TD-MPCフレームワークに再構築関数の使用を提案し、内部状態表現から元の観測値を再構成することができるようにする。
– これにより、トレーニング中のエージェントの学習信号がより安定し、サンプル効率性が向上する。
– 提案されたロスタームの追加により、DeepMind-Controlスイートの状態ベースおよび画像ベースのタスクでのパフォーマンスが向上した。

要約(オリジナル)

Over the last few years, we have not seen any major developments in model-free or model-based learning methods that would make one obsolete relative to the other. In most cases, the used technique is heavily dependent on the use case scenario or other attributes, e.g. the environment. Both approaches have their own advantages, for example, sample efficiency or computational efficiency. However, when combining the two, the advantages of each can be combined and hence achieve better performance. The TD-MPC framework is an example of this approach. On the one hand, a world model in combination with model predictive control is used to get a good initial estimate of the value function. On the other hand, a Q function is used to provide a good long-term estimate. Similar to algorithms like MuZero a latent state representation is used, where only task-relevant information is encoded to reduce the complexity. In this paper, we propose the use of a reconstruction function within the TD-MPC framework, so that the agent can reconstruct the original observation given the internal state representation. This allows our agent to have a more stable learning signal during training and also improves sample efficiency. Our proposed addition of another loss term leads to improved performance on both state- and image-based tasks from the DeepMind-Control suite.

arxiv情報

著者 Jonas Matthies,Muhammad Burhan Hafez,Mostafa Kotb,Stefan Wermter
発行日 2023-04-14 16:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク