要約
自動計画アルゴリズムには、各アクションの前提条件と効果を指定するドメインのモデルが必要です。
このようなドメインモデルを取得することは難しいことで有名です。
学習ドメインモデルのアルゴリズムが存在しますが、ドメインモデルと計画の学習が数値計画環境の効果的なアプローチであるかどうか、つまり、状態に個別の状態変数と数値状態変数が含まれるかどうかは不明のままです。
この作業では、数値ドメインモデルを学習する利点を調査し、代替モデルのないソリューションと比較します。
ケーススタディとして、Minecraftで2つのタスクを使用しています。これは、AIチャレンジとして使用されている人気のサンドボックスゲームです。
まず、オフラインの学習設定を検討します。ここでは、専門家の軌跡が学習できます。
これは、学習ドメインモデルの標準設定です。
数値セーフアクションモデル学習(NSAM)アルゴリズムを使用して、数値ドメインモデルを学習し、学習ドメインモデルと数値プランナーで新しい問題を解決しました。
このモデルベースのソリューションNSAM _(+P)を呼び出し、それをいくつかのモデルフリー模倣学習(IL)およびオフライン強化学習(RL)アルゴリズムと比較します。
経験的な結果は、一部のILアルゴリズムが簡単なタスクを解決するために速く学習できることを示していますが、NSAM _(+P)により、長期計画を必要とし、より大きな環境で問題を解決できるようにするタスクを解決できます。
次に、環境でエージェントを移動することによって学習が行われるオンライン学習設定を検討します。
この設定では、ランプを紹介します。
ランプでは、エージェントの実行中に収集された観測を使用して、RLポリシーを同時にトレーニングし、計画ドメインアクションモデルを学習します。
これにより、RLポリシーと学習ドメインモデルの間に肯定的なフィードバックループが形成されます。
ランプを使用することの利点を実験的に示し、いくつかのRLベースラインよりも効率的な計画を見つけ、より多くの問題を解決することを示しています。
要約(オリジナル)
Automated Planning algorithms require a model of the domain that specifies the preconditions and effects of each action. Obtaining such a domain model is notoriously hard. Algorithms for learning domain models exist, yet it remains unclear whether learning a domain model and planning is an effective approach for numeric planning environments, i.e., where states include discrete and numeric state variables. In this work, we explore the benefits of learning a numeric domain model and compare it with alternative model-free solutions. As a case study, we use two tasks in Minecraft, a popular sandbox game that has been used as an AI challenge. First, we consider an offline learning setting, where a set of expert trajectories are available to learn from. This is the standard setting for learning domain models. We used the Numeric Safe Action Model Learning (NSAM) algorithm to learn a numeric domain model and solve new problems with the learned domain model and a numeric planner. We call this model-based solution NSAM_(+p), and compare it to several model-free Imitation Learning (IL) and Offline Reinforcement Learning (RL) algorithms. Empirical results show that some IL algorithms can learn faster to solve simple tasks, while NSAM_(+p) allows solving tasks that require long-term planning and enables generalizing to solve problems in larger environments. Then, we consider an online learning setting, where learning is done by moving an agent in the environment. For this setting, we introduce RAMP. In RAMP, observations collected during the agent’s execution are used to simultaneously train an RL policy and learn a planning domain action model. This forms a positive feedback loop between the RL policy and the learned domain model. We demonstrate experimentally the benefits of using RAMP, showing that it finds more efficient plans and solves more problems than several RL baselines.
arxiv情報
著者 | Yarin Benyamin,Argaman Mordoch,Shahaf S. Shperberg,Roni Stern |
発行日 | 2025-02-18 16:26:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google