要約
UAV-VLA(Visual-Language-action)システムは、航空ロボットとのコミュニケーションを促進するために設計されたツールです。
衛星画像処理を視覚言語モデル(VLM)とGPTの強力な機能と統合することにより、UAV-VLAを使用すると、ユーザーは簡単なテキストリクエストを通じて一般的なフライトパスとアクションプランを生成できます。
このシステムは、衛星画像によって提供される豊富なコンテキスト情報を活用して、意思決定とミッション計画の強化を可能にします。
VLMによる視覚分析とGPTによる自然言語処理の組み合わせにより、ユーザーはパスアンドアクションセットを提供し、空中操作をより効率的でアクセスしやすくします。
新しく開発された方法は、22%の作成された軌道の長さの違いと、K-Nearest Neighbors(KNN)アプローチのユークリッド距離で34.22 mで34.22 mで目的のオブジェクトを見つけることにおける平均誤差を示しました。
要約(オリジナル)
The UAV-VLA (Visual-Language-Action) system is a tool designed to facilitate communication with aerial robots. By integrating satellite imagery processing with the Visual Language Model (VLM) and the powerful capabilities of GPT, UAV-VLA enables users to generate general flight paths-and-action plans through simple text requests. This system leverages the rich contextual information provided by satellite images, allowing for enhanced decision-making and mission planning. The combination of visual analysis by VLM and natural language processing by GPT can provide the user with the path-and-action set, making aerial operations more efficient and accessible. The newly developed method showed the difference in the length of the created trajectory in 22% and the mean error in finding the objects of interest on a map in 34.22 m by Euclidean distance in the K-Nearest Neighbors (KNN) approach.
arxiv情報
著者 | Oleg Sautenkov,Yasheerah Yaqoot,Artem Lykov,Muhammad Ahsan Mustafa,Grik Tadevosyan,Aibek Akhmetkazy,Miguel Altamirano Cabrera,Mikhail Martynov,Sausar Karaf,Dzmitry Tsetserukou |
発行日 | 2025-05-13 06:54:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google