Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC using Tube-Guided Data Augmentation and NeRFs

要約

模倣学習 (IL) では、リソースを大量に消費するモデル予測コントローラー (MPC) から計算効率の高い感覚運動ポリシーをトレーニングできますが、多くのサンプルが必要になることが多く、トレーニング時間が長くなったり、堅牢性が制限されたりすることがあります。
これらの問題に対処するために、プロセスとセンシングの不確実性を考慮した堅牢な MPC のバリアントと IL を組み合わせ、ビジョンベースのポリシーの効率的な学習を可能にするデータ拡張 (DA) 戦略を設計します。
Tube-NeRF と名付けられた提案された DA 手法は、Neural Radiance Fields (NeRF) を利用して新しい合成画像を生成し、堅牢な MPC (チューブ) の特性を使用して関連するビューを選択し、対応するアクションを効率的に計算します。
オンボードカメラからの画像を水平位置の唯一のソースとして使用して制御アクションを生成する視覚運動ポリシーを学習することで、マルチコプターでの位置特定と軌道追跡のタスクへのアプローチを調整します。
私たちの評価では、現在の IL 手法と比較して、デモンストレーション効率が 80 倍向上し、トレーニング時間が 50% 削減された、堅牢な視覚運動ポリシーの学習が数値的に実証されました。
さらに、当社のポリシーは実際のマルチコプターへの移行に成功し、わずか 1.5 ミリ秒のオンボード推論時間で、大きな外乱にもかかわらず、正確な位置特定と低い追跡エラーを実現します。

要約(オリジナル)

Imitation learning (IL) can train computationally-efficient sensorimotor policies from a resource-intensive Model Predictive Controller (MPC), but it often requires many samples, leading to long training times or limited robustness. To address these issues, we combine IL with a variant of robust MPC that accounts for process and sensing uncertainties, and we design a data augmentation (DA) strategy that enables efficient learning of vision-based policies. The proposed DA method, named Tube-NeRF, leverages Neural Radiance Fields (NeRFs) to generate novel synthetic images, and uses properties of the robust MPC (the tube) to select relevant views and to efficiently compute the corresponding actions. We tailor our approach to the task of localization and trajectory tracking on a multirotor, by learning a visuomotor policy that generates control actions using images from the onboard camera as only source of horizontal position. Our evaluations numerically demonstrate learning of a robust visuomotor policy with an 80-fold increase in demonstration efficiency and a 50% reduction in training time over current IL methods. Additionally, our policies successfully transfer to a real multirotor, achieving accurate localization and low tracking errors despite large disturbances, with an onboard inference time of only 1.5 ms.

arxiv情報

著者 Andrea Tagliabue,Jonathan P. How
発行日 2023-11-23 18:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク