SPO: Sequential Monte Carlo Policy Optimisation

要約

学習および意思決定中に計画を活用することは、インテリジェント エージェントの長期的な開発の中心となります。
最近の研究では、この目的のために、ツリーベースの検索方法とセルフプレイ学習メカニズムをうまく組み合わせることができました。
ただし、これらの方法は通常、検索が逐次的に行われるため、スケーリングの課題に直面します。
実際のエンジニアリング ソリューションはこの問題を部分的に克服できますが、多くの場合、パフォーマンスに悪影響を及ぼします。
このペーパーでは、期待値最大化 (EM) フレームワークに基づいたモデルベースの強化学習アルゴリズムである SPO: Sequential Monte Carlo Policy Optimization を紹介します。
SPO が堅牢なポリシーの改善と効率的なスケーリング特性を提供することを示します。
サンプルベースの検索により、変更を加えることなく、離散アクション空間と連続アクション空間の両方に直接適用できます。
連続環境と離散環境の両方において、モデルフリーおよびモデルベースのベースラインと比較して、統計的に有意なパフォーマンスの向上を実証しています。
さらに、SPO の検索の並列性により、ハードウェア アクセラレータの効果的な利用が可能になり、有利なスケーリング則が得られます。

要約(オリジナル)

Leveraging planning during learning and decision-making is central to the long-term development of intelligent agents. Recent works have successfully combined tree-based search methods and self-play learning mechanisms to this end. However, these methods typically face scaling challenges due to the sequential nature of their search. While practical engineering solutions can partly overcome this, they often result in a negative impact on performance. In this paper, we introduce SPO: Sequential Monte Carlo Policy Optimisation, a model-based reinforcement learning algorithm grounded within the Expectation Maximisation (EM) framework. We show that SPO provides robust policy improvement and efficient scaling properties. The sample-based search makes it directly applicable to both discrete and continuous action spaces without modifications. We demonstrate statistically significant improvements in performance relative to model-free and model-based baselines across both continuous and discrete environments. Furthermore, the parallel nature of SPO’s search enables effective utilisation of hardware accelerators, yielding favourable scaling laws.

arxiv情報

著者 Matthew V Macfarlane,Edan Toledo,Donal Byrne,Paul Duckworth,Alexandre Laterre
発行日 2024-10-31 17:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク