Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning

要約

探索と活用のバランスをとることは、ゲーム ツリーの検索と自動計画の両方において重要な問題です。
ただし、この問題は Multi-Armed Bandit (MAB) 文献内で広範に分析されていますが、計画コミュニティがその結果を適用しようとしてもあまり成功しませんでした。
MAB 文献のより詳細な理論的理解が、モンテカルロ ツリー検索 (MCTS) / トライアルベースのヒューリスティック ツリー検索 (THTS) に基づく既存の計画アルゴリズムの改善に役立つことを示します。
特に、THTS は、UCB1 の固定有界サポート報酬分布の理論的要件が古典的な計画のヒューリスティック検索内では満たされないため、アドホックな方法で UCB1 MAB アルゴリズムを使用します。
中心的な問題は、UCB1 が報酬のさまざまな規模に適応していないことにあります。
私たちは、アジャイルな古典的プランニング向けに UCB1-Normal バンディットを備えた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案します。これは、報酬の分散を考慮してさまざまなスケールの分布を処理し、アルゴリズムのパフォーマンスが向上しました (より少ないノード拡張でより多くのプランが見つかります)。
) は、Greedy Best First Search および既存の MCTS/THTS ベースのアルゴリズム (GreedyUCT、GreedyUCT*) を上回るパフォーマンスを発揮します。

要約(オリジナル)

Balancing exploration and exploitation has been an important problem in both game tree search and automated planning. However, while the problem has been extensively analyzed within the Multi-Armed Bandit (MAB) literature, the planning community has had limited success when attempting to apply those results. We show that a more detailed theoretical understanding of MAB literature helps improve existing planning algorithms that are based on Monte Carlo Tree Search (MCTS) / Trial Based Heuristic Tree Search (THTS). In particular, THTS uses UCB1 MAB algorithms in an ad hoc manner, as UCB1’s theoretical requirement of fixed bounded support reward distributions is not satisfied within heuristic search for classical planning. The core issue lies in UCB1’s lack of adaptations to the different scales of the rewards. We propose GreedyUCT-Normal, a MCTS/THTS algorithm with UCB1-Normal bandit for agile classical planning, which handles distributions with different scales by taking the reward variance into consideration, and resulted in an improved algorithmic performance (more plans found with less node expansions) that outperforms Greedy Best First Search and existing MCTS/THTS-based algorithms (GreedyUCT,GreedyUCT*).

arxiv情報

著者 Stephen Wissow,Masataro Asai
発行日 2024-08-30 15:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク