Mastering Diverse Domains through World Models

要約

幅広いアプリケーションにわたってタスクを解決することを学習する一般的なアルゴリズムを開発することは、人工知能における基本的な課題でした。
現在の強化学習アルゴリズムは、開発目的と同様のタスクに容易に適用できますが、新しいアプリケーション ドメイン向けに構成するには、人間による多大な専門知識と実験が必要です。
DreamerV3 は、単一の構成で 150 以上の多様なタスクにわたって特殊な手法よりも優れたパフォーマンスを発揮する一般的なアルゴリズムです。
Dreamer は環境のモデルを学習し、将来のシナリオを想像することでその行動を改善します。
正規化、バランシング、変換に基づく堅牢性技術により、ドメイン間での安定した学習が可能になります。
Dreamer は、すぐに使用できる、人間のデータやカリキュラムを使用せずに、Minecraft でゼロからダイヤモンドを収集する最初のアルゴリズムです。
この成果は、オープンワールドにおけるピクセルとまばらな報酬から先見の明のある戦略を探求する必要がある人工知能における重大な課題として提起されています。
私たちの取り組みにより、大規模な実験を行わずに困難な制御問題を解決できるため、強化学習を広く適用できるようになります。

要約(オリジナル)

Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence. Although current reinforcement learning algorithms can be readily applied to tasks similar to what they have been developed for, configuring them for new application domains requires significant human expertise and experimentation. We present DreamerV3, a general algorithm that outperforms specialized methods across over 150 diverse tasks, with a single configuration. Dreamer learns a model of the environment and improves its behavior by imagining future scenarios. Robustness techniques based on normalization, balancing, and transformations enable stable learning across domains. Applied out of the box, Dreamer is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula. This achievement has been posed as a significant challenge in artificial intelligence that requires exploring farsighted strategies from pixels and sparse rewards in an open world. Our work allows solving challenging control problems without extensive experimentation, making reinforcement learning broadly applicable.

arxiv情報

著者 Danijar Hafner,Jurgis Pasukonis,Jimmy Ba,Timothy Lillicrap
発行日 2024-04-17 17:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク