Reward-Free Curricula for Training Robust World Models

要約

最近、環境内での追加のトレーニングなしで新しいタスクに適応できる、一般的に有能なエージェントの開発に対する関心が高まっています。
報酬なしの探索から世界モデルを学習することは有望なアプローチであり、新しいタスクに対する想像上の経験を使用してポリシーをトレーニングできるようになります。
汎用エージェントを実現するには、さまざまな環境にわたる堅牢性が必要です。
ただし、環境が異なれば、適切な世界モデルを学習するために必要なデータ量も異なる場合があります。
この研究では、報酬なしの設定で堅牢な世界モデルを効率的に学習するという問題に取り組みます。
堅牢性の尺度として、最小後悔目標を考慮します。
私たちは、ミニマックスリグレス目標が、環境全体の世界モデルの最大誤差を最小化することに関連できることを示します。
これは、アルゴリズム「WAKER: 堅牢性のための環境全体にわたる知識の重み付け取得」に影響を与えます。
WAKER は、各環境の世界モデルの推定誤差に基づいてデータ収集の環境を選択します。
私たちの実験では、WAKER が単純なドメインのランダム化よりも優れたパフォーマンスを示し、その結果、堅牢性、効率性、一般化が向上することが実証されました。

要約(オリジナル)

There has been a recent surge of interest in developing generally-capable agents that can adapt to new tasks without additional training in the environment. Learning world models from reward-free exploration is a promising approach, and enables policies to be trained using imagined experience for new tasks. Achieving a general agent requires robustness across different environments. However, different environments may require different amounts of data to learn a suitable world model. In this work, we address the problem of efficiently learning robust world models in the reward-free setting. As a measure of robustness, we consider the minimax regret objective. We show that the minimax regret objective can be connected to minimising the maximum error in the world model across environments. This informs our algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for Robustness. WAKER selects environments for data collection based on the estimated error of the world model for each environment. Our experiments demonstrate that WAKER outperforms naive domain randomisation, resulting in improved robustness, efficiency, and generalisation.

arxiv情報

著者 Marc Rigter,Minqi Jiang,Ingmar Posner
発行日 2023-06-15 15:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク