Model-based Policy Optimization using Symbolic World Model

要約

ロボット工学における学習ベースの制御手法の適用には、大きな課題が伴います。
1 つは、モデルフリーの強化学習アルゴリズムがサンプル効率の低い観測データを使用することです。
この課題に対処するための一般的なアプローチは、環境ダイナミクス モデルの採用を含むモデルベースの強化学習です。
シンボリック回帰によって生成されるシンボリック式を使用して遷移ダイナミクスを近似することをお勧めします。
シンボリック モデルを使用した機械システムの近似は、ニューラル ネットワークを使用した近似よりもパラメーターが少ないため、外挿の精度と品質が高くなる可能性があります。
シンボリック ダイナミクス モデルを使用してモデルベースのポリシー最適化の軌跡を生成し、学習アルゴリズムのサンプル効率を向上させます。
私たちは、シミュレートされた環境内のさまざまなタスクにわたってアプローチを評価します。
私たちの方法は、モデルフリーおよびモデルベースのベースライン方法と比較して、これらのタスクにおいて優れたサンプル効率を示しています。

要約(オリジナル)

The application of learning-based control methods in robotics presents significant challenges. One is that model-free reinforcement learning algorithms use observation data with low sample efficiency. To address this challenge, a prevalent approach is model-based reinforcement learning, which involves employing an environment dynamics model. We suggest approximating transition dynamics with symbolic expressions, which are generated via symbolic regression. Approximation of a mechanical system with a symbolic model has fewer parameters than approximation with neural networks, which can potentially lead to higher accuracy and quality of extrapolation. We use a symbolic dynamics model to generate trajectories in model-based policy optimization to improve the sample efficiency of the learning algorithm. We evaluate our approach across various tasks within simulated environments. Our method demonstrates superior sample efficiency in these tasks compared to model-free and model-based baseline methods.

arxiv情報

著者 Andrey Gorodetskiy,Konstantin Mironov,Aleksandr Panov
発行日 2024-07-18 13:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク