要約
最近、モデルベースの機敏な飛行のための最先端のアプローチとして、モデル予測輪郭制御 (MPCC) が登場しました。
MPCC は、グローバルに最適化された軌道に依存することなく、進行状況の最大化と実行時のパス フォローイングとの間のトレードオフにおける優れた柔軟性から恩恵を受けます。
ただし、(i) クワッドローターのダイナミクス全体が非線形である、(ii) コスト関数が非常に非凸である、(iii) ハイパーパラメーター空間の高次元であるため、MPCC の最適なチューニング パラメーター セットを見つけることは困難です。
.
このホワイト ペーパーでは、確率論的ポリシー検索手法である加重最大尤度 (WML) を活用して、MPCC の最適な目標を自動的に学習します。
WML は、学習パラメーターを更新するためのクローズド フォーム ソリューションにより、サンプル効率が高くなります。
さらに、モデルベースのアプローチの使用によって提供されるデータ効率により、忠実度の高いシミュレーターで直接トレーニングすることができます。これにより、私たちのアプローチはゼロショットを現実の世界に転送できるようになります。
現実の世界でアプローチを検証し、私たちの方法が、以前の手動で調整されたコントローラーと、75 km/h の速度に達する最先端の自動調整ベースラインの両方よりも優れていることを示します。
要約(オリジナル)
Recently, Model Predictive Contouring Control (MPCC) has arisen as the state-of-the-art approach for model-based agile flight. MPCC benefits from great flexibility in trading-off between progress maximization and path following at runtime without relying on globally optimized trajectories. However, finding the optimal set of tuning parameters for MPCC is challenging because (i) the full quadrotor dynamics are non-linear, (ii) the cost function is highly non-convex, and (iii) of the high dimensionality of the hyperparameter space. This paper leverages a probabilistic Policy Search method – Weighted Maximum Likelihood (WML)- to automatically learn the optimal objective for MPCC. WML is sample-efficient due to its closed-form solution for updating the learning parameters. Additionally, the data efficiency provided by the use of a model-based approach allows us to directly train in a high-fidelity simulator, which in turn makes our approach able to transfer zero-shot to the real world. We validate our approach in the real world, where we show that our method outperforms both the previous manually tuned controller and the state-of-the-art auto-tuning baseline reaching speeds of 75 km/h.
arxiv情報
| 著者 | Angel Romero,Shreedhar Govil,Gonca Yilmaz,Yunlong Song,Davide Scaramuzza |
| 発行日 | 2023-03-02 14:20:21+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google