On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning

要約

強化学習 (RL) アルゴリズムは、画像観察から直接、困難な制御問題を解決できますが、多くの場合、そのためには何百万もの環境との相互作用が必要です。
最近では、モデルベースの RL アルゴリズムにより、世界の内部モデルを同時に学習し、実際の環境の相互作用を想像上のロールアウトで補完してポリシーを改善することにより、サンプル効率が大幅に向上しました。
しかし、世界の効果的なモデルをゼロから学習するのは困難であり、新しいスキルを学習するために世界の理解と視覚的な手がかりに大きく依存する人間とはまったく対照的です。
この研究では、最新のモデルベースの RL アルゴリズムによって学習された内部モデルを利用して、明らかに異なる新しいタスクをより迅速に解決できるかどうかを調査します。
我々は、学習した世界モデルのスケーラブルな事前トレーニングと微調整を備えたサンプル効率の高いオンライン RL のフレームワークであるモデルベース クロスタスク転送 (XTRA) を提案します。
オフラインでのマルチタスクの事前トレーニングとオンラインでのクロスタスクの微調整により、ゼロからトレーニングしたベースラインに比べて大幅な改善を達成しました。
モデルベースのアルゴリズム EfficientZero の平均パフォーマンスが 23%、場合によっては 71% も向上しました。

要約(オリジナル)

Reinforcement Learning (RL) algorithms can solve challenging control problems directly from image observations, but they often require millions of environment interactions to do so. Recently, model-based RL algorithms have greatly improved sample-efficiency by concurrently learning an internal model of the world, and supplementing real environment interactions with imagined rollouts for policy improvement. However, learning an effective model of the world from scratch is challenging, and in stark contrast to humans that rely heavily on world understanding and visual cues for learning new skills. In this work, we investigate whether internal models learned by modern model-based RL algorithms can be leveraged to solve new, distinctly different tasks faster. We propose Model-Based Cross-Task Transfer (XTRA), a framework for sample-efficient online RL with scalable pretraining and finetuning of learned world models. By offline multi-task pretraining and online cross-task finetuning, we achieve substantial improvements over a baseline trained from scratch; we improve mean performance of model-based algorithm EfficientZero by 23%, and by as much as 71% in some instances.

arxiv情報

著者 Yifan Xu,Nicklas Hansen,Zirui Wang,Yung-Chieh Chan,Hao Su,Zhuowen Tu
発行日 2023-06-15 17:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク