SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum

要約

私たちは、エンドツーエンドの視覚的なドローン ナビゲーションのための新しいシミュレーター、トレーニング アプローチ、および総称して SOUS VIDE と呼ばれるポリシー アーキテクチャを提案します。
当社のトレーニングされたポリシーは、オンボードの認識と計算のみを使用して、堅牢な現実世界のパフォーマンスを備えたゼロショットのシミュレーションからリアルへの転送を示します。
FiGS と呼ばれる私たちのシミュレータは、計算的に単純なドローン ダイナミクス モデルと視覚的忠実度の高いガウス スプラッティング シーンの再構築を組み合わせています。
FiGS は、ドローンの飛行を迅速にシミュレートし、最大 130 fps でフォトリアリスティックな画像を生成できます。
私たちは、FiGS を使用して、ダイナミクス パラメーターと空間外乱に対してランダム化された、特権的な状態とダイナミクス情報を備えたエキスパート MPC から 100k ~ 300k の観察とアクションのペアを収集します。
次に、このエキスパート MPC を抽出して、SV-Net と呼ばれる軽量ニューラル アーキテクチャを備えたエンドツーエンドの視覚運動ポリシーを作成します。
SV-Net は、カラー画像、オプティカル フロー、IMU データ ストリームを、ドローンに搭載された 20Hz の低レベルのボディ レートと推力コマンドに処理します。
重要なのは、SV-Net には、実行時にドローンのダイナミクスの変化に適応する Rapid Motor Adaptation (RMA) モジュールが含まれているということです。
105 回のハードウェア実験のキャンペーンで、SOUS VIDE ポリシーが 30% の質量変動、40 m/s の突風、60% の周囲の明るさの変化、現場からの物体の移動や除去、および現場を積極的に移動する人々に対して堅牢であることを示しました。
ドローンの視野。
コード、データ、実験のビデオは、プロジェクト ページ https://stanfordmsl.github.io/SousVide/ でご覧いただけます。

要約(オリジナル)

We propose a new simulator, training approach, and policy architecture, collectively called SOUS VIDE, for end-to-end visual drone navigation. Our trained policies exhibit zero-shot sim-to-real transfer with robust real-world performance using only on-board perception and computation. Our simulator, called FiGS, couples a computationally simple drone dynamics model with a high visual fidelity Gaussian Splatting scene reconstruction. FiGS can quickly simulate drone flights producing photorealistic images at up to 130 fps. We use FiGS to collect 100k-300k observation-action pairs from an expert MPC with privileged state and dynamics information, randomized over dynamics parameters and spatial disturbances. We then distill this expert MPC into an end-to-end visuomotor policy with a lightweight neural architecture, called SV-Net. SV-Net processes color image, optical flow and IMU data streams into low-level body rate and thrust commands at 20Hz onboard a drone. Crucially, SV-Net includes a Rapid Motor Adaptation (RMA) module that adapts at runtime to variations in drone dynamics. In a campaign of 105 hardware experiments, we show SOUS VIDE policies to be robust to 30% mass variations, 40 m/s wind gusts, 60% changes in ambient brightness, shifting or removing objects from the scene, and people moving aggressively through the drone’s visual field. Code, data, and experiment videos can be found on our project page: https://stanfordmsl.github.io/SousVide/.

arxiv情報

著者 JunEn Low,Maximilian Adang,Javier Yu,Keiko Nagami,Mac Schwager
発行日 2024-12-20 21:13:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク