要約
エンドツーエンドの視覚ドローンナビゲーションのために、Sous Videと集合的に呼ばれる新しいシミュレーター、トレーニングアプローチ、およびポリシーアーキテクチャを提案します。
私たちの訓練されたポリシーは、オンボードの認識と計算のみを使用して、堅牢な実世界のパフォーマンスでゼロショットSIMからリアル転送を示します。
イチジクと呼ばれる私たちのシミュレーターは、計算上シンプルなドローンダイナミクスモデルを視覚的に忠実なガウススプラッティングシーンの再構成と結び付けます。
イチジクは、最大130 fpsで光リアリスティックな画像を生成するドローン飛行を迅速にシミュレートできます。
イチジクを使用して、特権状態とダイナミクス情報を備えた専門家MPCから100K-300K画像/状態アクションペアを収集し、ダイナミクスパラメーターと空間障害を無作為化します。
次に、このエキスパートMPCを、SV-NETと呼ばれる軽量のニューラルアーキテクチャを使用して、エンドツーエンドの視覚運動ポリシーに蒸留します。
SV-NETプロセスカラーイメージ、光学フロー、およびIMUデータは、ドローンに搭載された20 Hzの20 Hzで低レベルの推力およびボディレートコマンドにストリーミングします。
重要なことに、SV-NETには、実行時にドローンダイナミクスのバリエーションに適応する低レベル制御用の学習モジュールが含まれています。
105のハードウェア実験のキャンペーンでは、Sous Videポリシーが30%の質量変動、40 m/sの突風、周囲の明るさの60%の変化、シーンからオブジェクトのシフトまたは除去、およびドローンの視野を積極的に移動する人々に堅牢であることを示します。
コード、データ、および実験ビデオは、プロジェクトページhttps://stanfordmsl.github.io/sousvide/で見つけることができます。
要約(オリジナル)
We propose a new simulator, training approach, and policy architecture, collectively called SOUS VIDE, for end-to-end visual drone navigation. Our trained policies exhibit zero-shot sim-to-real transfer with robust real-world performance using only onboard perception and computation. Our simulator, called FiGS, couples a computationally simple drone dynamics model with a high visual fidelity Gaussian Splatting scene reconstruction. FiGS can quickly simulate drone flights producing photorealistic images at up to 130 fps. We use FiGS to collect 100k-300k image/state-action pairs from an expert MPC with privileged state and dynamics information, randomized over dynamics parameters and spatial disturbances. We then distill this expert MPC into an end-to-end visuomotor policy with a lightweight neural architecture, called SV-Net. SV-Net processes color image, optical flow and IMU data streams into low-level thrust and body rate commands at 20 Hz onboard a drone. Crucially, SV-Net includes a learned module for low-level control that adapts at runtime to variations in drone dynamics. In a campaign of 105 hardware experiments, we show SOUS VIDE policies to be robust to 30% mass variations, 40 m/s wind gusts, 60% changes in ambient brightness, shifting or removing objects from the scene, and people moving aggressively through the drone’s visual field. Code, data, and experiment videos can be found on our project page: https://stanfordmsl.github.io/SousVide/.
arxiv情報
著者 | JunEn Low,Maximilian Adang,Javier Yu,Keiko Nagami,Mac Schwager |
発行日 | 2025-03-21 17:22:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google