Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent

要約

エージェントおよび物理的人工知能(AI)の最近の進歩は、ヒューマノイドや車輪付きロボットなどの地上ベースのプラットフォームに大きく焦点を合わせており、航空ロボットは比較的目立たないままにしています。
一方、最先端の無人航空機(UAV)マルチモーダルビジョン言語システムは、通常、リソース化された組織にのみアクセスできるクローズドソースモデルに依存しています。
自律ドローンの自然言語制御を民主化するために、PX4ベースの飛行制御、ロボットオペレーティングシステム2(ROS 2)ミドルウェア、およびオラマを使用してローカルホストモデルを統合するオープンソースエージェントフレームワークを紹介します。
シミュレーションとカスタムクアッドコプタープラットフォームの両方でパフォーマンスを評価し、コマンド生成のための4つの大手言語モデル(LLM)ファミリとシーンの理解のための3つのビジョン言語モデル(VLM)ファミリをベンチマークします。

要約(オリジナル)

Recent advances in agentic and physical artificial intelligence (AI) have largely focused on ground-based platforms such as humanoid and wheeled robots, leaving aerial robots relatively underexplored. Meanwhile, state-of-the-art unmanned aerial vehicle (UAV) multimodal vision-language systems typically rely on closed-source models accessible only to well-resourced organizations. To democratize natural language control of autonomous drones, we present an open-source agentic framework that integrates PX4-based flight control, Robot Operating System 2 (ROS 2) middleware, and locally hosted models using Ollama. We evaluate performance both in simulation and on a custom quadcopter platform, benchmarking four large language model (LLM) families for command generation and three vision-language model (VLM) families for scene understanding.

arxiv情報

著者 Shoon Kit Lim,Melissa Jia Ying Chong,Jing Huey Khor,Ting Yang Ling
発行日 2025-06-09 07:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 パーマリンク