GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts

要約

モデル予測制御 (MPC) は、実際のロボット工学アプリケーションにおける軌道最適化のための一般的なアプローチです。
MPC ポリシーは、運動力学および安全性の制約の下で軌道パラメータを最適化し、安全性、最適性、一般化可能性、解釈可能性、および説明可能性を保証します。
ただし、一部の動作は複雑であり、MPC 目的関数を手作りするのは困難です。
Learnable-MPC と呼ばれる特別なクラスの MPC ポリシーは、専門家のデモンストレーションからの模倣学習を使用してこの問題に対処します。
ただし、デモンストレーターと模倣者のエージェントが同一であることが必要ですが、現実世界のロボット工学の多くのアプリケーションではこれを満足させるのは困難です。
この論文では、デモンストレーターと模倣者が同じダイナミクスを共有しておらず、それらの状態空間が部分的に重複している可能性がある場合に、Learnable-MPC ポリシーをトレーニングする実際的な問題に取り組みます。
我々は、敵対的生成ネットワーク (GAN) を使用して、デモンストレーターと模倣者の状態軌跡分布間のジェンセン・シャノンの発散を最小限に抑える新しいアプローチを提案します。
DeepMind Control スイートのさまざまなシミュレートされたロボット工学タスクに対するアプローチを評価し、デモンストレーターの動作をコピーすることなくデモンストレーターの動作を学習する際のアプローチの有効性を実証します。

要約(オリジナル)

Model predictive control (MPC) is a popular approach for trajectory optimization in practical robotics applications. MPC policies can optimize trajectory parameters under kinodynamic and safety constraints and provide guarantees on safety, optimality, generalizability, interpretability, and explainability. However, some behaviors are complex and it is difficult to hand-craft an MPC objective function. A special class of MPC policies called Learnable-MPC addresses this difficulty using imitation learning from expert demonstrations. However, they require the demonstrator and the imitator agents to be identical which is hard to satisfy in many real world applications of robotics. In this paper, we address the practical problem of training Learnable-MPC policies when the demonstrator and the imitator do not share the same dynamics and their state spaces may have a partial overlap. We propose a novel approach that uses a generative adversarial network (GAN) to minimize the Jensen-Shannon divergence between the state-trajectory distributions of the demonstrator and the imitator. We evaluate our approach on a variety of simulated robotics tasks of DeepMind Control suite and demonstrate the efficacy of our approach at learning the demonstrator’s behavior without having to copy their actions.

arxiv情報

著者 Returaj Burnwal,Anirban Santara,Nirav P. Bhatt,Balaraman Ravindran,Gaurav Aggarwal
発行日 2023-05-30 15:15:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク