要約
Racevlaは、視覚言語アクション(VLA)を活用して人間のような行動をエミュレートすることにより、自律的なレーシングドローンナビゲーションの革新的なアプローチを提示します。
この研究では、ドローンがリアルタイムの環境フィードバックに基づいてナビゲーション戦略を適応させることができる高度なアルゴリズムの統合を調査し、人間のパイロットの意思決定プロセスを模倣しています。
収集されたレーシングドローンデータセットで微調整されたこのモデルは、ドローンレース環境の複雑さにもかかわらず、強力な一般化を示しています。
Racevlaは、動きのあるOpenVLAの動き(75.0対60.0)およびセマンティック一般化(45.5対36.3)を上回り、ダイナミックカメラと単純化されたモーションタスクの恩恵を受けます。
ただし、オブジェクトサイズが異なる動的環境での操縦の課題により、視覚(79.6対87.0)および物理的(50.0対76.7)一般化がわずかに減少しました。
Racevlaは、視覚(79.6対52.0)、モーション(75.0対55.0)、物理(50.0対26.7)、およびセマンティック(45.5対38.8)のすべての軸でRT-2を上回り、複雑な環境でのリアルタイム調整の堅牢性を示しています。
実験により、最大速度は2.02 m/sの平均速度が明らかになり、一貫した操縦性が明らかになり、高速シナリオを効果的に処理するRacevlaの能力が示されました。
これらの調査結果は、競争力のあるレースコンテキストでの高性能ナビゲーションのRacevlaの可能性を強調しています。
Racevlaコードベース、前処理されたウェイト、およびデータセットは、このhttp URLで入手できます:https://racevla.github.io/
要約(オリジナル)
RaceVLA presents an innovative approach for autonomous racing drone navigation by leveraging Visual-Language-Action (VLA) to emulate human-like behavior. This research explores the integration of advanced algorithms that enable drones to adapt their navigation strategies based on real-time environmental feedback, mimicking the decision-making processes of human pilots. The model, fine-tuned on a collected racing drone dataset, demonstrates strong generalization despite the complexity of drone racing environments. RaceVLA outperforms OpenVLA in motion (75.0 vs 60.0) and semantic generalization (45.5 vs 36.3), benefiting from the dynamic camera and simplified motion tasks. However, visual (79.6 vs 87.0) and physical (50.0 vs 76.7) generalization were slightly reduced due to the challenges of maneuvering in dynamic environments with varying object sizes. RaceVLA also outperforms RT-2 across all axes – visual (79.6 vs 52.0), motion (75.0 vs 55.0), physical (50.0 vs 26.7), and semantic (45.5 vs 38.8), demonstrating its robustness for real-time adjustments in complex environments. Experiments revealed an average velocity of 1.04 m/s, with a maximum speed of 2.02 m/s, and consistent maneuverability, demonstrating RaceVLA’s ability to handle high-speed scenarios effectively. These findings highlight the potential of RaceVLA for high-performance navigation in competitive racing contexts. The RaceVLA codebase, pretrained weights, and dataset are available at this http URL: https://racevla.github.io/
arxiv情報
著者 | Valerii Serpiva,Artem Lykov,Artyom Myshlyaev,Muhammad Haris Khan,Ali Alridha Abdulkarim,Oleg Sautenkov,Dzmitry Tsetserukou |
発行日 | 2025-03-04 12:54:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google