Enhancing Reinforcement Learning Through Guided Search

要約

オフポリシー設定でのマルコフ決定問題のパフォーマンスを向上させることを目的として、オフライン強化学習 (RL) で行われることからインスピレーションを得ることをお勧めします。
オフライン RL では、不確実性を軽減し、潜在的なポリシー エラーを減らし、パフォーマンスの向上に役立てるために、ポリシー学習中に参照ポリシーへの近接性を維持するのが一般的です。
私たちは異なる環境にいることに気づきましたが、パフォーマンスを向上させるために同様の概念を適用できるかどうか、つまり、パフォーマンスの向上に貢献できる指導ポリシーを見つけることができるかどうか、そしてそれを RL エージェントにどのように組み込むかについて疑問が生じます。

私たちは、ガイドとしてモンテカルロ木探索 (MCTS) に基づくアルゴリズムに特に注目しています。MCTS は、さまざまなドメインにわたる最先端の機能で知られており、単一の領域で平衡に収束する能力により、私たちの興味を引き付けています。
プレーヤーと 2 人のプレーヤーのコンテキスト。
MCTS の力を RL エージェントのガイドとして利用することにより、各方法を単独で利用した場合に達成される成果を上回る、大幅なパフォーマンスの向上が観察されました。
私たちの実験は Atari 100k ベンチマークで実行されました。

要約(オリジナル)

With the aim of improving performance in Markov Decision Problem in an Off-Policy setting, we suggest taking inspiration from what is done in Offline Reinforcement Learning (RL). In Offline RL, it is a common practice during policy learning to maintain proximity to a reference policy to mitigate uncertainty, reduce potential policy errors, and help improve performance. We find ourselves in a different setting, yet it raises questions about whether a similar concept can be applied to enhance performance ie, whether it is possible to find a guiding policy capable of contributing to performance improvement, and how to incorporate it into our RL agent. Our attention is particularly focused on algorithms based on Monte Carlo Tree Search (MCTS) as a guide.MCTS renowned for its state-of-the-art capabilities across various domains, catches our interest due to its ability to converge to equilibrium in single-player and two-player contexts. By harnessing the power of MCTS as a guide for our RL agent, we observed a significant performance improvement, surpassing the outcomes achieved by utilizing each method in isolation. Our experiments were carried out on the Atari 100k benchmark.

arxiv情報

著者 Jérôme Arjonilla,Abdallah Saffidine,Tristan Cazenave
発行日 2024-08-19 16:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク