Reward-Free Curricula for Training Robust World Models

要約

最近、環境内での追加のトレーニングなしで新しいタスクに適応できる、一般的に有能なエージェントの開発に対する関心が高まっています。
報酬なしの探索から世界モデルを学習することは有望なアプローチであり、新しいタスクに対する想像上の経験を使用してポリシーをトレーニングできるようになります。
ただし、汎用エージェントを実現するには、さまざまな環境にわたる堅牢性が必要です。
この研究では、堅牢な世界モデルをトレーニングするために報酬なしの設定でカリキュラムを生成するという新しい問題に取り組みます。
我々は、すべての環境インスタンス化におけるミニマックス リグレスの観点からロバスト性を検討し、ミニマックス リグレスが環境インスタンス全体にわたるワールド モデルの最大誤差の最小化に関連できることを示します。
この結果は、私たちのアルゴリズムである WAKER: Weighted Acquisition of Knowledge across Environmentals for Robustness に影響を与えます。
WAKER は、各環境の世界モデルの推定誤差に基づいてデータ収集の環境を選択します。
私たちの実験では、WAKER がいくつかのベースラインを上回っており、その結果、堅牢性、効率性、汎用性が向上していることが実証されました。

要約(オリジナル)

There has been a recent surge of interest in developing generally-capable agents that can adapt to new tasks without additional training in the environment. Learning world models from reward-free exploration is a promising approach, and enables policies to be trained using imagined experience for new tasks. However, achieving a general agent requires robustness across different environments. In this work, we address the novel problem of generating curricula in the reward-free setting to train robust world models. We consider robustness in terms of minimax regret over all environment instantiations and show that the minimax regret can be connected to minimising the maximum error in the world model across environment instances. This result informs our algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for Robustness. WAKER selects environments for data collection based on the estimated error of the world model for each environment. Our experiments demonstrate that WAKER outperforms several baselines, resulting in improved robustness, efficiency, and generalisation.

arxiv情報

著者 Marc Rigter,Minqi Jiang,Ingmar Posner
発行日 2024-01-24 18:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク