On-line Policy Improvement using Monte-Carlo Search

要約

適応コントローラーのリアルタイムポリシー改善のためのモンテカルロシミュレーションアルゴリズムを紹介します。
モンテカルロ シミュレーションでは、シミュレーションの各ステップで意思決定を行うための初期ポリシーを使用して、考えられる各アクションの長期的な期待報酬が統計的に測定されます。
次に、測定された期待報酬を最大化するアクションが取られ、その結果、ポリシーが改善されます。
私たちのアルゴリズムは簡単に並列化でき、IBM SP1 および SP2 並列 RISC スーパーコンピューターに実装されています。
このアルゴリズムをバックギャモンの領域に適用することで、有望な初期結果が得られました。
結果は、ランダム ポリシーから非常に強力な多層ニューラル ネットワークである TD-Gammon に至るまで、さまざまな初期ポリシーについて報告されます。
いずれの場合も、モンテカルロ アルゴリズムにより、基本プレーヤーのエラー率が 5 分の 1 以上大幅に減少します。
このアルゴリズムは、環境をシミュレートできる他の多くの適応制御アプリケーションでも潜在的に役立ちます。

要約(オリジナル)

We present a Monte-Carlo simulation algorithm for real-time policy improvement of an adaptive controller. In the Monte-Carlo simulation, the long-term expected reward of each possible action is statistically measured, using the initial policy to make decisions in each step of the simulation. The action maximizing the measured expected reward is then taken, resulting in an improved policy. Our algorithm is easily parallelizable and has been implemented on the IBM SP1 and SP2 parallel-RISC supercomputers. We have obtained promising initial results in applying this algorithm to the domain of backgammon. Results are reported for a wide variety of initial policies, ranging from a random policy to TD-Gammon, an extremely strong multi-layer neural network. In each case, the Monte-Carlo algorithm gives a substantial reduction, by as much as a factor of 5 or more, in the error rate of the base players. The algorithm is also potentially useful in many other adaptive control applications in which it is possible to simulate the environment.

arxiv情報

著者 Gerald Tesauro,Gregory R. Galperin
発行日 2025-01-09 18:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク