Gradient-based Planning with World Models

要約

人工知能の分野における永続的な課題は、望ましい動作を達成するためのシステムの制御です。
単純な力学方程式によって支配されるシステムの場合、線形二次規則 (LQR) のような手法は歴史的に非常に効果的であることが証明されており、一般的な問題解決手段を必要とする現実世界のタスクのほとんどは、単純な方程式では簡単に記述できない力学を伴うワールド モデルを必要とします。

したがって、これらのモデルはニューラル ネットワークを使用してデータから学習する必要があります。
ビジュアル ワールド モデル用に設計されたほとんどのモデル予測制御 (MPC) アルゴリズムは、従来、計画のためにクロス エントロピーやモデル予測パス積分 (MPPI) などの勾配のない母集団ベースの最適化手法を検討してきました。
ただし、ワールド モデルの微分可能性を十分に活用する、勾配ベースの代替案の探索を紹介します。
私たちの研究では、私たちの手法と他の MPC ベースの代替案およびポリシーベースのアルゴリズムとの比較分析を実施します。
サンプル効率の高い設定では、私たちの方法は、ほとんどのタスクで代替アプローチと比較して同等以上のパフォーマンスを達成します。
さらに、ポリシー ネットワークと勾配ベースの MPC を組み合わせたハイブリッド モデルを導入します。これは、純粋なポリシー ベースの手法よりも優れたパフォーマンスを発揮するため、複雑な現実世界のタスクにおけるワールド モデルを使用した勾配ベースの計画の可能性が期待できます。

要約(オリジナル)

The enduring challenge in the field of artificial intelligence has been the control of systems to achieve desired behaviours. While for systems governed by straightforward dynamics equations, methods like Linear Quadratic Regulation (LQR) have historically proven highly effective, most real-world tasks, which require a general problem-solver, demand world models with dynamics that cannot be easily described by simple equations. Consequently, these models must be learned from data using neural networks. Most model predictive control (MPC) algorithms designed for visual world models have traditionally explored gradient-free population-based optimisation methods, such as Cross Entropy and Model Predictive Path Integral (MPPI) for planning. However, we present an exploration of a gradient-based alternative that fully leverages the differentiability of the world model. In our study, we conduct a comparative analysis between our method and other MPC-based alternatives, as well as policy-based algorithms. In a sample-efficient setting, our method achieves on par or superior performance compared to the alternative approaches in most tasks. Additionally, we introduce a hybrid model that combines policy networks and gradient-based MPC, which outperforms pure policy based methods thereby holding promise for Gradient-based planning with world models in complex real-world tasks.

arxiv情報

著者 Jyothir S V,Siddhartha Jalagam,Yann LeCun,Vlad Sobal
発行日 2023-12-28 18:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク