要約
世界モデルは、柔軟で目標指向の動作に必要な要素であるか、モデルのない学習で十分ですか?
この質問に対する正式な回答を提供します。マルチステップの目標指向タスクに一般化できるエージェントは、その環境の予測モデルを学んだに違いないことを示しています。
このモデルは、エージェントのポリシーから抽出できること、およびエージェントのパフォーマンスを高めることで達成できる目標の複雑さが必要であることを示しています。
これには、安全で一般的なエージェントの開発から、複雑な環境での境界エージェント機能まで、エージェントから世界モデルを引き出すための新しいアルゴリズムを提供することまで、多くの結果があります。
要約(オリジナル)
Are world models a necessary ingredient for flexible, goal-directed behaviour, or is model-free learning sufficient? We provide a formal answer to this question, showing that any agent capable of generalizing to multi-step goal-directed tasks must have learned a predictive model of its environment. We show that this model can be extracted from the agent’s policy, and that increasing the agents performance or the complexity of the goals it can achieve requires learning increasingly accurate world models. This has a number of consequences: from developing safe and general agents, to bounding agent capabilities in complex environments, and providing new algorithms for eliciting world models from agents.
arxiv情報
著者 | Jonathan Richens,David Abel,Alexis Bellot,Tom Everitt |
発行日 | 2025-06-16 12:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google