Multi-Fidelity Policy Gradient Algorithms

要約

多くの強化学習(RL)アルゴリズムには大量のデータが必要であり、運用システムとの頻繁な相互作用が実行不可能である、または高忠実度のシミュレーションが高価または利用できないアプリケーションでの使用を禁止する必要があります。
一方、低忠実度のシミュレータ(低秩序モデル、ヒューリスティックな報酬機能、または生成世界モデルなど)は、直接的なSIMからリアルへの転送には粗すぎても、RLトレーニングに有用なデータを安価に提供します。
ターゲット環境からの少量のデータを大量の低忠実度シミュレーションデータと組み合わせて、ポリック前のポリシーグラデーションの偏りのない減少推定値(コントロールバリエート)を形成するRLフレームワークである多忠実度ポリシーグラデーション(MFPG)を提案します。
2つのポリシーグラデーションアルゴリズムの多忠実度バリアントを開発することにより、フレームワークをインスタンス化します:強化と近位ポリシーの最適化。
一連のシミュレートされたロボットベンチマークの問題にわたる実験結果は、ターゲット環境サンプルが制限されている場合、MFPGが高忠実度データのみを使用するベースラインと比較して最大3.9倍高い報酬を達成し、トレーニングの安定性を改善することを示しています。
さらに、ターゲット環境との多くの相互作用が多いため、ベースラインにより多くの忠実度サンプルが10倍まで与えられた場合でも、MFPGは引き続きそれらを一致または上回ります。
最後に、MFPGは、低忠実度環境がターゲット環境と劇的に異なる場合でも、効果的なポリシーをトレーニングできることを観察します。
したがって、MFPGは、効率的なSIMからリアルへの転送のための新しいパラダイムを提供するだけでなく、ポリシーのパフォーマンスとデータ収集コストのトレードオフを管理するための原則的なアプローチも提供します。

要約(オリジナル)

Many reinforcement learning (RL) algorithms require large amounts of data, prohibiting their use in applications where frequent interactions with operational systems are infeasible, or high-fidelity simulations are expensive or unavailable. Meanwhile, low-fidelity simulators–such as reduced-order models, heuristic reward functions, or generative world models–can cheaply provide useful data for RL training, even if they are too coarse for direct sim-to-real transfer. We propose multi-fidelity policy gradients (MFPGs), an RL framework that mixes a small amount of data from the target environment with a large volume of low-fidelity simulation data to form unbiased, reduced-variance estimators (control variates) for on-policy policy gradients. We instantiate the framework by developing multi-fidelity variants of two policy gradient algorithms: REINFORCE and proximal policy optimization. Experimental results across a suite of simulated robotics benchmark problems demonstrate that when target-environment samples are limited, MFPG achieves up to 3.9x higher reward and improves training stability when compared to baselines that only use high-fidelity data. Moreover, even when the baselines are given more high-fidelity samples–up to 10x as many interactions with the target environment–MFPG continues to match or outperform them. Finally, we observe that MFPG is capable of training effective policies even when the low-fidelity environment is drastically different from the target environment. MFPG thus not only offers a novel paradigm for efficient sim-to-real transfer but also provides a principled approach to managing the trade-off between policy performance and data collection costs.

arxiv情報

著者 Xinjie Liu,Cyrus Neary,Kushagra Gupta,Christian Ellis,Ufuk Topcu,David Fridovich-Keil
発行日 2025-03-07 18:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク