要約
一連の原始的なアクションであるオプションを使用した計画は、複雑な環境内での強化学習に効果的であることが示されています。
以前の研究では、事前定義されたオプションまたは専門家のデモデータを通じて学習オプションを使用した計画に焦点を当ててきました。
人間の知識のない超人的ヒューリスティックを学ぶMuzeroに触発された私たちは、OptionZeroという名前の新しいアプローチを提案します。
OptionZeroは、オプションネットワークをMuzeroに組み込み、自己プレイゲームを通じてオプションの自律的な発見を提供します。
さらに、ダイナミクスネットワークを変更して、オプションを使用するときに環境遷移を提供し、同じシミュレーション制約の下でより深く検索できるようにします。
26のAtariゲームで実施された経験的実験では、OptionZeroがMuzeroを上回ることを示しており、平均ヒト正規化スコアで131.58%の改善を達成しています。
私たちの動作分析は、OptionZeroがオプションを学習するだけでなく、さまざまなゲーム特性に合わせた戦略的スキルを取得することを示しています。
私たちの調査結果は、計画でオプションを発見して使用するための有望な方向性を示しています。
私たちのコードは、https://rlg.iis.sinica.edu.tw/papers/optionzeroで入手できます。
要約(オリジナル)
Planning with options — a sequence of primitive actions — has been shown effective in reinforcement learning within complex environments. Previous studies have focused on planning with predefined options or learned options through expert demonstration data. Inspired by MuZero, which learns superhuman heuristics without any human knowledge, we propose a novel approach, named OptionZero. OptionZero incorporates an option network into MuZero, providing autonomous discovery of options through self-play games. Furthermore, we modify the dynamics network to provide environment transitions when using options, allowing searching deeper under the same simulation constraints. Empirical experiments conducted in 26 Atari games demonstrate that OptionZero outperforms MuZero, achieving a 131.58% improvement in mean human-normalized score. Our behavior analysis shows that OptionZero not only learns options but also acquires strategic skills tailored to different game characteristics. Our findings show promising directions for discovering and using options in planning. Our code is available at https://rlg.iis.sinica.edu.tw/papers/optionzero.
arxiv情報
著者 | Po-Wei Huang,Pei-Chiun Peng,Hung Guei,Ti-Rong Wu |
発行日 | 2025-03-21 13:30:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google