要約
我々はファルコンウイング(FalconWing)を発表する。ファルコンウイングは、自律性研究のためのオープンソースの超軽量(150g)固定翼プラットフォームである。このハードウェアプラットフォームは、小型カメラ、標準的な機体、オフボード計算、および手動オーバーライドのための無線通信を統合している。我々は、新しい実対実の学習アプローチを用いて、(IMUやモーションキャプチャを用いない)自律着陸のための純粋にビジョンベースの制御ポリシーを開発し、展開することにより、ファルコンウイングの能力を実証する。我々の学習アプローチは、(1)実世界の画像で訓練された3Dガウススプラッティングにより、フォトリアリスティックなシミュレーション環境を構築し、(2)ビジョン推定された実飛行データから非線形ダイナミクスを識別し、(3)シミュレーションのみの模倣学習により、マルチモーダルビジョントランスフォーマー(ViT)ポリシーを訓練する。ViTアーキテクチャは、単一のRGB画像と自己注意を介した制御動作の履歴を融合し、リアルタイムの20Hz推論を維持しながら時間的コンテキストを保持する。ハードウェアプラットフォーム上にゼロショットで展開した場合、このポリシーはビジョンベースの自律着陸において80%の成功率を達成した。ハードウェア仕様とともに、システムダイナミクス、フォトリアリスティックシミュレータ用ソフトウェア、学習アプローチもオープンソース化している。
要約(オリジナル)
We present FalconWing — an open-source, ultra-lightweight (150 g) fixed-wing platform for autonomy research. The hardware platform integrates a small camera, a standard airframe, offboard computation, and radio communication for manual overrides. We demonstrate FalconWing’s capabilities by developing and deploying a purely vision-based control policy for autonomous landing (without IMU or motion capture) using a novel real-to-sim-to-real learning approach. Our learning approach: (1) constructs a photorealistic simulation environment via 3D Gaussian splatting trained on real-world images; (2) identifies nonlinear dynamics from vision-estimated real-flight data; and (3) trains a multi-modal Vision Transformer (ViT) policy through simulation-only imitation learning. The ViT architecture fuses single RGB image with the history of control actions via self-attention, preserving temporal context while maintaining real-time 20 Hz inference. When deployed zero-shot on the hardware platform, this policy achieves an 80% success rate in vision-based autonomous landings. Together with the hardware specifications, we also open-source the system dynamics, the software for photorealistic simulator and the learning approach.
arxiv情報
著者 | Yan Miao,Will Shen,Hang Cui,Sayan Mitra |
発行日 | 2025-05-02 16:47:05+00:00 |
arxivサイト | arxiv_id(pdf) |