Levin Tree Search(LTS)(Orseau et al。、2018)は、ユーザー指定のポリシーを使用して検索をガイドする決定論的環境の検索アルゴリズムです。
この論文では、$ \ sqrt {\ text {lts}} $(発音ルートLTS)と呼ばれる新しいアルゴリズムを紹介します。
$ \ sqrt {\ text {lts}} $のテイクが、再ルーターの不確実性に関連する要因の価格で、サブタスクへの最良の分解と競合するノード訪問の数を証明します。
LTSが$ $ t $を取得した場合、$ q $ REROOTINGポイントの最良の場合、$ \ sqrt {\ text {lts}} $は$ o(q \ sqrt [q] {t})$のみです。
ポリシーと同様に、再ルーターはデータから学ぶことができ、$ \ sqrt {\ text {lts}} $が幅広いドメインに適用できると予想しています。
Levin Tree Search (LTS) (Orseau et al., 2018) is a search algorithm for deterministic environments that uses a user-specified policy to guide the search. It comes with a formal guarantee on the number of search steps (node visits) for finding a solution node that depends on the quality of the policy. In this paper, we introduce a new algorithm, called $\sqrt{\text{LTS}}$ (pronounce root-LTS), which implicitly starts an LTS search rooted at every node of the search tree. Each LTS search is assigned a rerooting weight by a (user-defined or learnt) rerooter, and the search effort is shared between all LTS searches proportionally to their weights. The rerooting mechanism implicitly decomposes the search space into subtasks, leading to significant speedups. We prove that the number of node visits that $\sqrt{\text{LTS}}$ takes is competitive with the best decomposition into subtasks, at the price of a factor that relates to the uncertainty of the rerooter. If LTS takes time $T$, in the best case with $q$ rerooting points, $\sqrt{\text{LTS}}$ only takes time $O(q\sqrt[q]{T})$. Like the policy, the rerooter can be learnt from data, and we expect $\sqrt{\text{LTS}}$ to be applicable to a wide range of domains.
著者 | Laurent Orseau,Marcus Hutter,Levi H. S. Lelis |
発行日 | 2025-03-11 17:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google