TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint

要約

モデルベースの計画を組み合わせたモデルベースの強化学習アルゴリズムと、事前に学習した価値/ポリシーは、高データ効率と継続的な制御における優れたパフォーマンスについて大きな認識を獲得しました。
ただし、プランナーによって生成されたデータを直接使用して、価値学習のための標準のSACスタイルのポリシー反復に依存する既存の方法が、多くの場合、\ emph {永続的な価値過剰を過大評価}にすることが多いことがわかります。
理論的分析と実験を通じて、この問題は、プランナーによって常にブートストラップされているデータ生成ポリシーと以前の学習ポリシーの構造ポリシーの不一致に深く根ざしていると主張します。
このような不一致をミニマリストに軽減するために、配布不足(OOD)クエリを削減するポリシーの正則化の用語を提案し、それにより価値学習を改善します。
私たちの方法には、既存のフレームワークの上に最小限の変更が含まれ、追加の計算は必要ありません。
広範な実験は、提案されたアプローチが、特に61-DOFヒューマノイドタスクで、TD-MPC2などのベースライン上のパフォーマンスを大きなマージンで改善することを示しています。
https://darthutopian.github.io/tdmpc_square/で定性的な結果を表示します。

要約(オリジナル)

Model-based reinforcement learning algorithms that combine model-based planning and learned value/policy prior have gained significant recognition for their high data efficiency and superior performance in continuous control. However, we discover that existing methods that rely on standard SAC-style policy iteration for value learning, directly using data generated by the planner, often result in \emph{persistent value overestimation}. Through theoretical analysis and experiments, we argue that this issue is deeply rooted in the structural policy mismatch between the data generation policy that is always bootstrapped by the planner and the learned policy prior. To mitigate such a mismatch in a minimalist way, we propose a policy regularization term reducing out-of-distribution (OOD) queries, thereby improving value learning. Our method involves minimum changes on top of existing frameworks and requires no additional computation. Extensive experiments demonstrate that the proposed approach improves performance over baselines such as TD-MPC2 by large margins, particularly in 61-DoF humanoid tasks. View qualitative results at https://darthutopian.github.io/tdmpc_square/.

arxiv情報

著者 Haotian Lin,Pengcheng Wang,Jeff Schneider,Guanya Shi
発行日 2025-02-05 19:08:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク