UAV-VLRR: Vision-Language Informed NMPC for Rapid Response in UAV Search and Rescue

要約

緊急捜索救助(SAR)の操作では、従来の手動ドローン制御が非効率的な複雑な環境で、迅速かつ正確なターゲット識別が必要です。
これらのシナリオに対処するために、この研究では、迅速なSARシステムであるUAV-VLRR(Vision-Language-Rapid-Response)が開発されています。
このシステムは、2つの側面で構成されています。1)視覚言語モデル(VLM)の力(VLM)の力を活用するマルチモーダルシステムと、シーン解釈のためのChATGPT-4O(LLM)の自然言語処理能力。
2)マルチモーダルシステムの出力に従って飛行するためのドローンによる迅速な応答のための障害物回避を備えた非線形モデル予測制御(NMPC)。
この作業は、ドローンがそのミッションを迅速かつ安全な方法で実行できるようにしながら、SARミッションを計画するためにオペレーターにより直感的で自然なアプローチを提供することにより、緊急SAR操作の応答時間を改善することを目的としています。
テストしたとき、私たちのアプローチは、既製のオートパイロットと比較した場合、平均で33.75%、人間のパイロットと比較した場合は54.6%でした。
uav-vlrrのビデオ:https://youtu.be/kjqqgkkt1xy

要約(オリジナル)

Emergency search and rescue (SAR) operations often require rapid and precise target identification in complex environments where traditional manual drone control is inefficient. In order to address these scenarios, a rapid SAR system, UAV-VLRR (Vision-Language-Rapid-Response), is developed in this research. This system consists of two aspects: 1) A multimodal system which harnesses the power of Visual Language Model (VLM) and the natural language processing capabilities of ChatGPT-4o (LLM) for scene interpretation. 2) A non-linearmodel predictive control (NMPC) with built-in obstacle avoidance for rapid response by a drone to fly according to the output of the multimodal system. This work aims at improving response times in emergency SAR operations by providing a more intuitive and natural approach to the operator to plan the SAR mission while allowing the drone to carry out that mission in a rapid and safe manner. When tested, our approach was faster on an average by 33.75% when compared with an off-the-shelf autopilot and 54.6% when compared with a human pilot. Video of UAV-VLRR: https://youtu.be/KJqQGKKt1xY

arxiv情報

著者 Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Oleg Sautenkov,Dzmitry Tsetserukou
発行日 2025-03-04 10:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク