A* Search Without Expansions: Learning Heuristic Functions with Deep Q-Networks

要約

A* 検索を使用して大規模なアクション スペースで問題を効率的に解決することは、人工知能コミュニティにとって何十年もの間重要でした。
これは、A* 検索の計算とメモリの要件が、アクション スペースのサイズに比例して増加するためです。
この負担は、ディープ ニューラル ネットワークなど、計算コストの高い関数近似によって学習されたヒューリスティック関数を A* 検索で使用する場合に、さらに顕著になります。
この問題に対処するために、ノードの子の遷移コストとヒューリスティック値の合計を計算できるという事実を利用するために、ディープ Q ネットワークを使用して検索をガイドする検索アルゴリズムである Q* 検索を導入します。
これらの子を明示的に生成せずに、ディープ Q ネットワークを通過する単一のフォワード パスを使用します。
これにより、計算時間が大幅に短縮され、反復ごとにノードを 1 つだけ生成する必要があります。
Q* 検索を使用して、1872 のメタアクションを含む大きなアクション スペースで定式化されたルービック キューブを解きます。このアクション スペースのサイズの 157 倍の増加は、計算時間の 4 倍未満の増加を引き起こし、
Q* 検索を実行したときに生成されるノード数の増加は 3 倍未満です。
さらに、Q* 検索は A* 検索よりも最大 129 倍速く、最大 1288 分の 1 少ないノードを生成します。
最後に、深層ニューラル ネットワークから許容可能なヒューリスティック関数を取得することは現在進行中の研究領域ですが、最短パスのコストを過大評価したり遷移コストを過小評価したりしないヒューリスティック関数が与えられた場合、Q* 探索が最短パスを見つけることが保証されることを証明します。

要約(オリジナル)

Efficiently solving problems with large action spaces using A* search has been of importance to the artificial intelligence community for decades. This is because the computation and memory requirements of A* search grow linearly with the size of the action space. This burden becomes even more apparent when A* search uses a heuristic function learned by computationally expensive function approximators, such as deep neural networks. To address this problem, we introduce Q* search, a search algorithm that uses deep Q-networks to guide search in order to take advantage of the fact that the sum of the transition costs and heuristic values of the children of a node can be computed with a single forward pass through a deep Q-network without explicitly generating those children. This significantly reduces computation time and requires only one node to be generated per iteration. We use Q* search to solve the Rubik’s cube when formulated with a large action space that includes 1872 meta-actions and find that this 157-fold increase in the size of the action space incurs less than a 4-fold increase in computation time and less than a 3-fold increase in number of nodes generated when performing Q* search. Furthermore, Q* search is up to 129 times faster and generates up to 1288 times fewer nodes than A* search. Finally, although obtaining admissible heuristic functions from deep neural networks is an ongoing area of research, we prove that Q* search is guaranteed to find a shortest path given a heuristic function that neither overestimates the cost of a shortest path nor underestimates the transition cost.

arxiv情報

著者 Forest Agostinelli,Alexander Shmakov,Stephen McAleer,Roy Fox,Pierre Baldi
発行日 2023-03-23 17:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク