要約
Levin Tree Search(LTS)(Orseau et al。、2018)は、ユーザー指定のポリシーを使用して検索をガイドする決定論的環境の検索アルゴリズムです。
ポリシーの品質に依存するソリューションノードを見つけるための検索手順(ノードアクセス)の数に関する正式な保証が付いています。
この論文では、$ \ sqrt {\ text {lts}} $(発音ルートLTS)と呼ばれる新しいアルゴリズムを紹介します。
各LTS検索には、(ユーザー定義または学習した)再ルーターによって再注行重量が割り当てられ、検索の取り組みは、重量に比例してすべてのLTS検索間で共有されます。
再閉鎖メカニズムは、検索空間をサブタスクに暗黙的に分解し、かなりのスピードアップにつながります。
$ \ sqrt {\ text {lts}} $のテイクが、再ルーターの不確実性に関連する要因の価格で、サブタスクへの最良の分解と競合するノード訪問の数を証明します。
LTSが$ $ t $を取得した場合、$ q $ REROOTINGポイントの最良の場合、$ \ sqrt {\ text {lts}} $は$ o(q \ sqrt [q] {t})$のみです。
ポリシーと同様に、再ルーターはデータから学ぶことができ、$ \ sqrt {\ text {lts}} $が幅広いドメインに適用できると予想しています。
要約(オリジナル)
Levin Tree Search (LTS) (Orseau et al., 2018) is a search algorithm for deterministic environments that uses a user-specified policy to guide the search. It comes with a formal guarantee on the number of search steps (node visits) for finding a solution node that depends on the quality of the policy. In this paper, we introduce a new algorithm, called $\sqrt{\text{LTS}}$ (pronounce root-LTS), which implicitly starts an LTS search rooted at every node of the search tree. Each LTS search is assigned a rerooting weight by a (user-defined or learnt) rerooter, and the search effort is shared between all LTS searches proportionally to their weights. The rerooting mechanism implicitly decomposes the search space into subtasks, leading to significant speedups. We prove that the number of node visits that $\sqrt{\text{LTS}}$ takes is competitive with the best decomposition into subtasks, at the price of a factor that relates to the uncertainty of the rerooter. If LTS takes time $T$, in the best case with $q$ rerooting points, $\sqrt{\text{LTS}}$ only takes time $O(q\sqrt[q]{T})$. Like the policy, the rerooter can be learnt from data, and we expect $\sqrt{\text{LTS}}$ to be applicable to a wide range of domains.
arxiv情報
著者 | Laurent Orseau,Marcus Hutter,Levi H. S. Lelis |
発行日 | 2025-03-11 17:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google