Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning

要約

私たちは、目標コストの推定値を含む状態によって表されるサンプルに基づいて、ニューラル ネットワークを使用して古典的な計画タスクに適したヒューリスティック関数を学習する問題を研究します。
ヒューリスティック関数は、状態空間のサイズの一部に制限されたサンプル数で状態空間と目標条件に対して学習され、同じ目標条件を持つ状態空間のすべての状態に対して適切に一般化する必要があります。
私たちの主な目標は、学習されたヒューリスティック関数によってガイドされる貪欲なベストファーストヒューリスティック検索 (GBFS) のパフォーマンスに対するサンプル生成戦略の影響をより深く理解することです。
一連の制御された実験では、学習されたヒューリスティックの品質を決定する 2 つの主な要因、つまりサンプル セットにどの状態が含まれるか、もう 1 つは目標コストの推定の品質であることがわかりました。
これら 2 つの要素は依存しています。サンプルが状態空間全体に適切に分散されていない場合、目標コストに対する完璧な推定値を持っていても不十分です。
また、高い値の推定値を持つサンプルを追加するなど、他の効果も調査します。
私たちの調査結果に基づいて、学習されたヒューリスティックの品質を向上させるための実践的な戦略を提案します。より代表的な状態を生成することを目的とした 3 つの戦略と、目標コストの見積もりを改善する 2 つの戦略です。
私たちの実践的な戦略は、学習されたヒューリスティックに基づいた GBFS アルゴリズムの平均カバレッジのほぼ 2 倍です。

要約(オリジナル)

We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples represented by states with their cost-to-goal estimates. The heuristic function is learned for a state space and goal condition with the number of samples limited to a fraction of the size of the state space, and must generalize well for all states of the state space with the same goal condition. Our main goal is to better understand the influence of sample generation strategies on the performance of a greedy best-first heuristic search (GBFS) guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: which states are included in the sample set and the quality of the cost-to-goal estimates. These two factors are dependent: having perfect cost-to-goal estimates is insufficient if the samples are not well distributed across the state space. We also study other effects, such as adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our practical strategies almost double the mean coverage of a GBFS algorithm guided by a learned heuristic.

arxiv情報

著者 R. V. Bettker,P. P. Minini,A. G. Pereira,M. Ritt
発行日 2023-11-30 17:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク