要約
強化学習 (RL) をロボットタスクに適用します。
従来の RL アルゴリズムの欠点の 1 つは、サンプル効率が低いことです。
サンプル効率を向上させる 1 つのアプローチは、モデルベースの RL です。
私たちのモデルベースの RL アルゴリズムでは、環境のモデル、本質的にはその遷移ダイナミクスと報酬関数を学習し、それを使用して架空の軌跡を生成し、モデルの微分可能性を利用してポリシーを更新するためにそれらを逆伝播します。
直感的には、より正確なモデルを学習すると、モデルベースの RL パフォーマンスが向上するはずです。
最近、基礎となる物理学の構造を利用して、物理システムのより優れたディープ ニューラル ネットワーク ベースのダイナミクス モデルを開発することへの関心が高まっています。
私たちは、非接触で剛体運動を行うロボット システムに焦点を当てています。
モデルベースの RL アルゴリズムの 2 つのバージョンを比較します。1 つは標準のディープ ニューラル ネットワーク ベースのダイナミクス モデルを使用し、もう 1 つはより正確な物理情報に基づいたニューラル ネットワーク ベースのダイナミクス モデルを使用します。
モデルベースの RL では、数値誤差が急速に蓄積する初期条件の影響を受けやすい環境でモデルの精度が主に重要になることを示します。
これらの環境では、物理学に基づいたバージョンのアルゴリズムにより、平均リターンとサンプル効率が大幅に向上します。
初期条件の影響を受けない環境では、アルゴリズムのどちらのバージョンも同様の平均リターンを達成しますが、物理学に基づいたバージョンの方がサンプル効率が向上します。
また、困難な環境では、物理情報に基づいたモデルベースの RL が、ソフト アクター-クリティックなどの最先端のモデルフリー RL アルゴリズムよりも優れた平均リターンを達成することも示します。これは、政策勾配を分析的に計算するためです。
一方、後者はサンプリングを通じてそれを推定します。
要約(オリジナル)
We apply reinforcement learning (RL) to robotics tasks. One of the drawbacks of traditional RL algorithms has been their poor sample efficiency. One approach to improve the sample efficiency is model-based RL. In our model-based RL algorithm, we learn a model of the environment, essentially its transition dynamics and reward function, use it to generate imaginary trajectories and backpropagate through them to update the policy, exploiting the differentiability of the model. Intuitively, learning more accurate models should lead to better model-based RL performance. Recently, there has been growing interest in developing better deep neural network based dynamics models for physical systems, by utilizing the structure of the underlying physics. We focus on robotic systems undergoing rigid body motion without contacts. We compare two versions of our model-based RL algorithm, one which uses a standard deep neural network based dynamics model and the other which uses a much more accurate, physics-informed neural network based dynamics model. We show that, in model-based RL, model accuracy mainly matters in environments that are sensitive to initial conditions, where numerical errors accumulate fast. In these environments, the physics-informed version of our algorithm achieves significantly better average-return and sample efficiency. In environments that are not sensitive to initial conditions, both versions of our algorithm achieve similar average-return, while the physics-informed version achieves better sample efficiency. We also show that, in challenging environments, physics-informed model-based RL achieves better average-return than state-of-the-art model-free RL algorithms such as Soft Actor-Critic, as it computes the policy-gradient analytically, while the latter estimates it through sampling.
arxiv情報
著者 | Adithya Ramesh,Balaraman Ravindran |
発行日 | 2023-05-14 11:27:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google