要約
Levin Tree Search (LTS) は、ポリシー (アクションにわたる確率分布) を利用する検索アルゴリズムで、ポリシーの品質に応じて、ゴール ノードに到達するまでの展開数について理論的な保証が付いています。
この保証は、ポリシー (LTS+NN) を表すニューラル ネットワークを最適化するために、LTS 損失と呼ばれる損失関数として使用できます。
この研究では、オンライン圧縮文献 (LTS+CM) に由来するパラメーター化されたコンテキスト モデルでニューラル ネットワークを置き換えることができることを示します。
この新しいモデルでは、LTS 損失が凸であることを示します。これにより、標準の凸最適化ツールの使用が可能になり、与えられた一連の解軌道に対してオンライン設定で最適なパラメーターへの収束保証が得られます。この保証は、ニューラルでは提供できないものです。
ネットワーク。
新しい LTS+CM アルゴリズムは、倉庫番 (Boxoban)、The Witness、および 24-Sliding Tile パズル (STP) などのいくつかのベンチマークで LTS+NN と比較して優れています。
この差は特に STP で大きく、LTS+NN はほとんどのテスト インスタンスを解決できませんが、LTS+CM は各テスト インスタンスをほんの数秒で解決します。
さらに、LTS+CM はわずか数百回の拡張でルービック キューブを解くポリシーを学習できることを示し、これは以前の機械学習技術を大幅に改善します。
要約(オリジナル)
Levin Tree Search (LTS) is a search algorithm that makes use of a policy (a probability distribution over actions) and comes with a theoretical guarantee on the number of expansions before reaching a goal node, depending on the quality of the policy. This guarantee can be used as a loss function, which we call the LTS loss, to optimize neural networks representing the policy (LTS+NN). In this work we show that the neural network can be substituted with parameterized context models originating from the online compression literature (LTS+CM). We show that the LTS loss is convex under this new model, which allows for using standard convex optimization tools, and obtain convergence guarantees to the optimal parameters in an online setting for a given set of solution trajectories — guarantees that cannot be provided for neural networks. The new LTS+CM algorithm compares favorably against LTS+NN on several benchmarks: Sokoban (Boxoban), The Witness, and the 24-Sliding Tile puzzle (STP). The difference is particularly large on STP, where LTS+NN fails to solve most of the test instances while LTS+CM solves each test instance in a fraction of a second. Furthermore, we show that LTS+CM is able to learn a policy that solves the Rubik’s cube in only a few hundred expansions, which considerably improves upon previous machine learning techniques.
arxiv情報
著者 | Laurent Orseau,Marcus Hutter,Levi H. S. Leli |
発行日 | 2023-05-26 14:00:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google