Learning Sketch Decompositions in Planning via Deep Reinforcement Learning

要約

計画学習と強化学習では、長期にわたって目標を達成する必要がある場合、問題全体に共通するサブ目標構造を特定することが重要です。
最近、そのような構造は、多くの古典的な計画領域にわたって、スケッチと呼ばれるフィーチャベースのルールとして表現できることが示されました。
これらのスケッチは問題を部分問題に分割し、IW$(k)$ 探索の貪欲なシーケンスによって低多項式時間で解決できるようになります。
フィーチャー プールと min-SAT ソルバーを使用してスケッチを学習する方法は開発されていますが、スケーラビリティと表現力という 2 つの重要な制限に直面しています。
この研究では、深層強化学習 (DRL) タスクとしてスケッチ分解の学習の問題を定式化することで、これらの制限に対処します。一般的なポリシーは、状態 s の後継状態が、次の状態から到達可能な状態として定義される、修正された計画問題で求められます。
IW$(k)$ 検索による。
この方法で得られたスケッチ分解はさまざまな領域にわたって実験的に評価され、貪欲な一連の IW$(k)$ 探索によって目的に到達した場合に問題は分解によって解決されたとみなされます。
スケッチ分解を学習するための DRL アプローチでは、ルールの形式で解釈可能なスケッチは生成されませんが、結果として得られる分解が多くの場合鮮明に理解できることを示しています。

要約(オリジナル)

In planning and reinforcement learning, the identification of common subgoal structures across problems is important when goals are to be achieved over long horizons. Recently, it has been shown that such structures can be expressed as feature-based rules, called sketches, over a number of classical planning domains. These sketches split problems into subproblems which then become solvable in low polynomial time by a greedy sequence of IW$(k)$ searches. Methods for learning sketches using feature pools and min-SAT solvers have been developed, yet they face two key limitations: scalability and expressivity. In this work, we address these limitations by formulating the problem of learning sketch decompositions as a deep reinforcement learning (DRL) task, where general policies are sought in a modified planning problem where the successor states of a state s are defined as those reachable from s through an IW$(k)$ search. The sketch decompositions obtained through this method are experimentally evaluated across various domains, and problems are regarded as solved by the decomposition when the goal is reached through a greedy sequence of IW$(k)$ searches. While our DRL approach for learning sketch decompositions does not yield interpretable sketches in the form of rules, we demonstrate that the resulting decompositions can often be understood in a crisp manner.

arxiv情報

著者 Michael Aichmüller,Hector Geffner
発行日 2024-12-11 17:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.6 パーマリンク