Combining model-predictive control and predictive reinforcement learning for stable quadrupedal robot locomotion

要約

安定した歩容の生成は、脚式ロボットの移動にとって重要な問題です。これは、歩行などの他の重要なパフォーマンス要素に影響を与えるためです。
平坦でない地形での移動性と消費電力。
歩行生成の安定性は、脚式ロボットの本体とそれが移動する環境との間の相互作用を効率的に制御することによって得られます。
ここでは、モデル予測コントローラーと予測強化学習コントローラーを組み合わせてこれをどのように実現できるかを研究します。
モデル予測制御 (MPC) は、状態制約管理に便利なインターフェイスを提供するため、オンライン学習を利用しない (一部の適応バリエーションを除く) 確立された方法です。
対照的に、強化学習 (RL) は純粋な経験に基づく適応に依存します。
RL のベアボーン バリアントでは、ロボットの複雑性が高く、シミュレーションや実験に費用がかかるため、必ずしもロボットに適しているとは限りません。
この研究では、両方の制御方法を組み合わせて、四足ロボットの安定ゲート生成問題に対処します。
私たちが開発して適用するハイブリッド アプローチでは、ニューラル ネットワークによってモデル化された Q 関数の形式でテール コストを伴うコスト ロールアウト アルゴリズムを使用します。
これにより、純粋な MPC アプローチでは予測範囲が広がるにつれて指数関数的に増加する計算の複雑さを軽減できます。
我々は、RL 歩行コントローラーが、公称 MP コントローラーでは機能しない短地平線での安定した移動を実現することを実証します。
さらに、当社のコントローラーはライブ操作が可能なため、事前のトレーニングは必要ありません。
私たちの結果は、ここで示したように、MPC と RL のハイブリッド化が、オンライン制御機能と計算の複雑さの間の適切なバランスを達成するのに有益であることを示唆しています。

要約(オリジナル)

Stable gait generation is a crucial problem for legged robot locomotion as this impacts other critical performance factors such as, e.g. mobility over an uneven terrain and power consumption. Gait generation stability results from the efficient control of the interaction between the legged robot’s body and the environment where it moves. Here, we study how this can be achieved by a combination of model-predictive and predictive reinforcement learning controllers. Model-predictive control (MPC) is a well-established method that does not utilize any online learning (except for some adaptive variations) as it provides a convenient interface for state constraints management. Reinforcement learning (RL), in contrast, relies on adaptation based on pure experience. In its bare-bone variants, RL is not always suitable for robots due to their high complexity and expensive simulation/experimentation. In this work, we combine both control methods to address the quadrupedal robot stable gate generation problem. The hybrid approach that we develop and apply uses a cost roll-out algorithm with a tail cost in the form of a Q-function modeled by a neural network; this allows to alleviate the computational complexity, which grows exponentially with the prediction horizon in a purely MPC approach. We demonstrate that our RL gait controller achieves stable locomotion at short horizons, where a nominal MP controller fails. Further, our controller is capable of live operation, meaning that it does not require previous training. Our results suggest that the hybridization of MPC with RL, as presented here, is beneficial to achieve a good balance between online control capabilities and computational complexity.

arxiv情報

著者 Vyacheslav Kovalev,Anna Shkromada,Henni Ouerdane,Pavel Osinenko
発行日 2023-07-15 09:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク