Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation

要約

マルチローターは、多様なフィールドロボットアプリケーションで重要な役割を果たしていますが、アクチュエータの障害に非常に影響を受けやすく、急速な不安定性とミッションの信頼性の低下につながります。
補強学習(RL)を使用したさまざまな障害耐性制御(FTC)戦略は広く調査されていますが、以前のアプローチのほとんどは、マルチローターモデルの事前知識または新しい構成に適応するために苦労する必要があります。
これらの制限に対処するために、トランスベースのオンライン適応モジュールと統合された新しいハイブリッドRLベースのFTCフレームワークを提案します。
当社のフレームワークは、変圧器アーキテクチャを活用してリアルタイムで潜在的な表現を推測し、再訓練なしで以前に見えなかったシステムモデルへの適応を可能にします。
効果の低下アクチュエーター断層の下でのpybulletシミュレーションでの方法を評価し、95%の成功率と0.129 mの位置根平均平方根誤差(RMSE)を達成し、86%の成功と0.153 mのRMSEを上回る既存の適応方法を上回ります。
さまざまな構成を備えた四角体のさらなる評価は、訓練されていないダイナミクス全体のフレームワークの堅牢性を確認します。
これらの結果は、マルチローターの適応性と信頼性を高めるためのフレームワークの可能性を示しており、動的および不確実な環境で効率的な障害管理を可能にします。
ウェブサイトはhttp://00dhkim.me/paper/rl-ftcで入手できます

要約(オリジナル)

Multirotors play a significant role in diverse field robotics applications but remain highly susceptible to actuator failures, leading to rapid instability and compromised mission reliability. While various fault-tolerant control (FTC) strategies using reinforcement learning (RL) have been widely explored, most previous approaches require prior knowledge of the multirotor model or struggle to adapt to new configurations. To address these limitations, we propose a novel hybrid RL-based FTC framework integrated with a transformer-based online adaptation module. Our framework leverages a transformer architecture to infer latent representations in real time, enabling adaptation to previously unseen system models without retraining. We evaluate our method in a PyBullet simulation under loss-of-effectiveness actuator faults, achieving a 95% success rate and a positional root mean square error (RMSE) of 0.129 m, outperforming existing adaptation methods with 86% success and an RMSE of 0.153 m. Further evaluations on quadrotors with varying configurations confirm the robustness of our framework across untrained dynamics. These results demonstrate the potential of our framework to enhance the adaptability and reliability of multirotors, enabling efficient fault management in dynamic and uncertain environments. Website is available at http://00dhkim.me/paper/rl-ftc

arxiv情報

著者 Dohyun Kim,Jayden Dongwoo Lee,Hyochoong Bang,Jungho Bae
発行日 2025-05-13 04:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation はコメントを受け付けていません

Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows

要約

重要性サンプリングは、モンテカルロシミュレーションで使用されるまれなイベントシミュレーション技術であり、サンプリング分布をまれな関心のあるイベントにバイアスします。
適切な重みをサンプリングポイントに割り当てることにより、重要なサンプリングにより、まれなイベントまたは分布の尾のより効率的な推定が可能になります。
ただし、提案分布がターゲット分布を効果的にカバーしない場合、重要度サンプリングは失敗する可能性があります。
この作業では、正規化フローの潜在空間で提案分布を更新することにより、より効率的なサンプリングの方法を提案します。
正規化フローターゲット分布からよりシンプルな潜在分布への反転性マッピングを学習します。
潜在スペースは、提案分布の検索中により簡単に探索でき、提案分布からのサンプルは、ターゲット分布の空間で、ターゲット分布の空間で回収されます。
自律レースや航空機の地上衝突回避などのシミュレートされたロボットアプリケーションに関する方法論を経験的に検証します。

要約(オリジナル)

Importance sampling is a rare event simulation technique used in Monte Carlo simulations to bias the sampling distribution towards the rare event of interest. By assigning appropriate weights to sampled points, importance sampling allows for more efficient estimation of rare events or tails of distributions. However, importance sampling can fail when the proposal distribution does not effectively cover the target distribution. In this work, we propose a method for more efficient sampling by updating the proposal distribution in the latent space of a normalizing flow. Normalizing flows learn an invertible mapping from a target distribution to a simpler latent distribution. The latent space can be more easily explored during the search for a proposal distribution, and samples from the proposal distribution are recovered in the space of the target distribution via the invertible mapping. We empirically validate our methodology on simulated robotics applications such as autonomous racing and aircraft ground collision avoidance.

arxiv情報

著者 Liam A. Kruse,Alexandros E. Tzikas,Harrison Delecki,Mansur M. Arief,Mykel J. Kochenderfer
発行日 2025-05-13 05:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows はコメントを受け付けていません

Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information

要約

シーン座標回帰(SCR)は、ディープニューラルネットワーク(DNN)を利用してカメラポーズ推定のために2D-3D対応を直接回帰する視覚的なローカリゼーション手法です。
ただし、現在のSCRメソッドは、暗黙の三角測量に依存しているため、反復テクスチャや意味のない領域を処理する際の課題に直面することがよくあります。
この論文では、効率的で正確なSCRシステムを提案します。
既存のSCRメソッドと比較して、シーンエンコードと顕著なキーポイント検出の両方の統一アーキテクチャを提案し、システムが有益な領域のエンコードを優先することができます。
この設計により、計算効率が大幅に向上します。
さらに、マッピングと再局在化の両方でシーケンシャル情報を利用するメカニズムを導入します。
提案された方法は、特に繰り返しテクスチャのある環境で、暗黙の三角測量を強化します。
屋内および屋外のデータセットで実施された包括的な実験は、提案されたシステムが最先端の(SOTA)SCRメソッドよりも優れていることを示しています。
単一フレームの再局在化モードは、ベースラインのリコールレートを6.4%改善し、走行速度を56Hzから90Hzに増加させます。
さらに、シーケンスベースのモードは、元の効率を維持しながら、リコール率を11%増加させます。

要約(オリジナル)

Scene Coordinate Regression (SCR) is a visual localization technique that utilizes deep neural networks (DNN) to directly regress 2D-3D correspondences for camera pose estimation. However, current SCR methods often face challenges in handling repetitive textures and meaningless areas due to their reliance on implicit triangulation. In this paper, we propose an efficient and accurate SCR system. Compared to existing SCR methods, we propose a unified architecture for both scene encoding and salient keypoint detection, allowing our system to prioritize the encoding of informative regions. This design significantly improves computational efficiency. Additionally, we introduce a mechanism that utilizes sequential information during both mapping and relocalization. The proposed method enhances the implicit triangulation, especially in environments with repetitive textures. Comprehensive experiments conducted across indoor and outdoor datasets demonstrate that the proposed system outperforms state-of-the-art (SOTA) SCR methods. Our single-frame relocalization mode improves the recall rate of our baseline by 6.4% and increases the running speed from 56Hz to 90Hz. Furthermore, our sequence-based mode increases the recall rate by 11% while maintaining the original efficiency.

arxiv情報

著者 Kuan Xu,Zeyu Jiang,Haozhi Cao,Shenghai Yuan,Chen Wang,Lihua Xie
発行日 2025-05-13 05:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information はコメントを受け付けていません

Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation

要約

このホワイトペーパーでは、歩行者のローカリゼーションにおけるネットワーク化された慣性ナビゲーションのための新しい制約因子グラフ最適化(FGO)ベースのアプローチを紹介します。
慣性ナビゲーションソリューションに固有のドリフトを効果的に緩和するために、運動学的制約を非線形最適化フレームワークに直接組み込みます。
具体的には、ゼロ速度の更新(Zupts)、および人間の解剖学的制限に基づくボディマウント慣性測定単位(IMU)間の最大許容距離を表す不平等制約などの等式制約を利用します。
平等制約はエラー因子として簡単に統合されていますが、標準のFGO定式化では不平等制約を明示的に表現することはできません。
これに対処するために、FGOコスト関数に微分可能なソフトマックスベースのペナルティ用語を導入して、不平等の制約をスムーズかつ堅牢に実施します。
提案された制約されたFGOアプローチは、複数のエポックにわたって時間的相関を活用し、最適な状態軌道推定値を一貫して制約満足度を維持します。
実験結果は、この方法が従来のカルマンフィルターアプローチよりも優れていることを確認し、歩行者ナビゲーションの有効性と堅牢性を示しています。

要約(オリジナル)

This paper presents a novel constrained Factor Graph Optimization (FGO)-based approach for networked inertial navigation in pedestrian localization. To effectively mitigate the drift inherent in inertial navigation solutions, we incorporate kinematic constraints directly into the nonlinear optimization framework. Specifically, we utilize equality constraints, such as Zero-Velocity Updates (ZUPTs), and inequality constraints representing the maximum allowable distance between body-mounted Inertial Measurement Units (IMUs) based on human anatomical limitations. While equality constraints are straightforwardly integrated as error factors, inequality constraints cannot be explicitly represented in standard FGO formulations. To address this, we introduce a differentiable softmax-based penalty term in the FGO cost function to enforce inequality constraints smoothly and robustly. The proposed constrained FGO approach leverages temporal correlations across multiple epochs, resulting in optimal state trajectory estimates while consistently maintaining constraint satisfaction. Experimental results confirm that our method outperforms conventional Kalman filter approaches, demonstrating its effectiveness and robustness for pedestrian navigation.

arxiv情報

著者 Yingjie Hu,Wang Hu
発行日 2025-05-13 05:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation はコメントを受け付けていません

SKiD-SLAM: Robust, Lightweight, and Distributed Multi-Robot LiDAR SLAM in Resource-Constrained Field Environments

要約

分散型Lidarスラムは、効率的なロボットの自律性を達成し、マッピングのスケーラビリティを改善するために重要です。
ただし、フィールド環境で適用する際には2つの問題を考慮する必要があります。1つはリソースの制限であり、もう1つはロボット間協会です。
リソース制限の問題は、特にフィールド内の通信システムまたはオンボードコンピューターを使用する場合、データサイズがネットワークまたはメモリの処理能​​力を超えると発生します。
INTRA-ROBOT関連の問題は、ICPの大きな視点の違いの狭い収束領域のために発生し、多くの偽陽性ループを引き起こし、最終的にマルチロボットシステムの一貫性のないグローバルマップをもたらします。
これらの問題に取り組むために、Skid-Slamと呼ばれる多用途のフィールドアプリケーション向けに設計された分散LIDAR SLAMフレームワークを提案します。
軽量の場所認識と高速で堅牢なグローバル登録にのみ焦点を当てた以前の作業を拡張して、分散型Lidarスラムの堅牢で軽量のロボット間ループ閉鎖に焦点を当てたマルチロボットマッピングフレームワークを紹介します。
さまざまな環境実験を通じて、私たちの方法は、他の最先端の分散SLAMアプローチと比較して、より堅牢で軽量であり、リソースの制限とロボット間の関連性の問題を克服することを実証します。
また、現実世界の惑星エミュレーション地形と洞窟環境での実験をマッピングすることにより、アプローチのフィールド適用性を検証しました。
私たちのコードは、https://sparolab.github.io/research/skid_slam/で入手できます。

要約(オリジナル)

Distributed LiDAR SLAM is crucial for achieving efficient robot autonomy and improving the scalability of mapping. However, two issues need to be considered when applying it in field environments: one is resource limitation, and the other is inter/intra-robot association. The resource limitation issue arises when the data size exceeds the processing capacity of the network or memory, especially when utilizing communication systems or onboard computers in the field. The inter/intra-robot association issue occurs due to the narrow convergence region of ICP under large viewpoint differences, triggering many false positive loops and ultimately resulting in an inconsistent global map for multi-robot systems. To tackle these problems, we propose a distributed LiDAR SLAM framework designed for versatile field applications, called SKiD-SLAM. Extending our previous work that solely focused on lightweight place recognition and fast and robust global registration, we present a multi-robot mapping framework that focuses on robust and lightweight inter-robot loop closure in distributed LiDAR SLAM. Through various environmental experiments, we demonstrate that our method is more robust and lightweight compared to other state-of-the-art distributed SLAM approaches, overcoming resource limitation and inter/intra-robot association issues. Also, we validated the field applicability of our approach through mapping experiments in real-world planetary emulation terrain and cave environments, which are in-house datasets. Our code will be available at https://sparolab.github.io/research/skid_slam/.

arxiv情報

著者 Hogyun Kim,Jiwon Choi,Juwon Kim,Geonmo Yang,Dongjin Cho,Hyungtae Lim,Younggun Cho
発行日 2025-05-13 05:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SKiD-SLAM: Robust, Lightweight, and Distributed Multi-Robot LiDAR SLAM in Resource-Constrained Field Environments はコメントを受け付けていません

Motion Control of High-Dimensional Musculoskeletal Systems with Hierarchical Model-Based Planning

要約

生物学的およびロボット的アプリケーションに見られるような高次元の非線形システムを制御することは、大きな状態および行動スペースのために困難です。
深い強化学習はこれらのドメインで多くの成功を収めていますが、計算的に集中的かつ時間がかかるため、重要な手動チューニングを必要とするタスクの大規模なコレクションを解決するのに適していません。
この作業では、ゼロショットの階層モデルベースの学習アルゴリズムであり、高次元の複雑な動的システムのほぼリアルタイム制御のための階層モデルベースの学習アルゴリズムであるモデル予測制御(MPC^2)を導入します。
MPC^2は、ターゲット姿勢計画にサンプリングベースのモデル予測コントローラーを使用し、アクチュエータ調整のために形態に対応する比例コントローラーを組み込むことにより、高次元タスクの堅牢な制御を可能にします。
このアルゴリズムは、立っている、さまざまな地形を歩く、スポーツ活動の模倣など、さまざまなモーションタスクで高次元のヒト筋骨格モデルのモーション制御を可能にします。
MPC^2の報酬機能は、ブラックボックスの最適化を介して調整でき、人間の集約的な報酬エンジニアリングの必要性を大幅に減らします。

要約(オリジナル)

Controlling high-dimensional nonlinear systems, such as those found in biological and robotic applications, is challenging due to large state and action spaces. While deep reinforcement learning has achieved a number of successes in these domains, it is computationally intensive and time consuming, and therefore not suitable for solving large collections of tasks that require significant manual tuning. In this work, we introduce Model Predictive Control with Morphology-aware Proportional Control (MPC^2), a hierarchical model-based learning algorithm for zero-shot and near-real-time control of high-dimensional complex dynamical systems. MPC^2 uses a sampling-based model predictive controller for target posture planning, and enables robust control for high-dimensional tasks by incorporating a morphology-aware proportional controller for actuator coordination. The algorithm enables motion control of a high-dimensional human musculoskeletal model in a variety of motion tasks, such as standing, walking on different terrains, and imitating sports activities. The reward function of MPC^2 can be tuned via black-box optimization, drastically reducing the need for human-intensive reward engineering.

arxiv情報

著者 Yunyue Wei,Shanning Zhuang,Vincent Zhuang,Yanan Sui
発行日 2025-05-13 05:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Motion Control of High-Dimensional Musculoskeletal Systems with Hierarchical Model-Based Planning はコメントを受け付けていません

Training Strategies for Efficient Embodied Reasoning

要約

ロボットチェーンオブテーブ推論(COT) – モデルがアクションを選択する前に有用な中間表現を予測する – ロボットポリシー、特にビジョン言語アクションモデル(VLA)の一般化とパフォーマンスを改善するための効果的な方法を提供します。
このようなアプローチはパフォーマンスと一般化を改善することが示されていますが、専門のロボット推論データや推論の速度が遅いなど、コアの制限に苦しんでいます。
これらの問題に対処する新しいロボット推論アプローチを設計するために、推論がポリシーのパフォーマンスが重要である理由のより完全な特性評価が重要です。
ロボットの推論がポリシーを改善するいくつかのメカニズムを仮定します – (1)より良い表現学習、(2)学習カリキュラム化を改善し、(3)表現率を高め、それぞれを隔離してテストするためのロボットCOTの推論の単純なバリエーションを考案します。
推論を生成することを学ぶことは、より良いVLA表現につながることを発見し、推論に注意を払うことで、これらの機能を実際に活用してアクション予測を改善するのに役立ちます。
私たちの結果は、COTの推論がVLAに役立つ理由をよりよく理解することができます。これは、ロボットの推論のために2つのシンプルで軽量な代替レシピを導入するために使用します。
提案されたアプローチは、標準的なロボット推論と比較して、リベロ90ベンチマークでの最先端の結果、および3倍の推論スピードアップに比べて、非合理的なポリシー、最先端の結果に比べて大幅なパフォーマンスの向上を達成しています。

要約(オリジナル)

Robot chain-of-thought reasoning (CoT) — wherein a model predicts helpful intermediate representations before choosing actions — provides an effective method for improving the generalization and performance of robot policies, especially vision-language-action models (VLAs). While such approaches have been shown to improve performance and generalization, they suffer from core limitations, like needing specialized robot reasoning data and slow inference speeds. To design new robot reasoning approaches that address these issues, a more complete characterization of why reasoning helps policy performance is critical. We hypothesize several mechanisms by which robot reasoning improves policies — (1) better representation learning, (2) improved learning curricularization, and (3) increased expressivity — then devise simple variants of robot CoT reasoning to isolate and test each one. We find that learning to generate reasonings does lead to better VLA representations, while attending to the reasonings aids in actually leveraging these features for improved action prediction. Our results provide us with a better understanding of why CoT reasoning helps VLAs, which we use to introduce two simple and lightweight alternative recipes for robot reasoning. Our proposed approaches achieve significant performance gains over non-reasoning policies, state-of-the-art results on the LIBERO-90 benchmark, and a 3x inference speedup compared to standard robot reasoning.

arxiv情報

著者 William Chen,Suneel Belkhale,Suvir Mirchandani,Oier Mees,Danny Driess,Karl Pertsch,Sergey Levine
発行日 2025-05-13 05:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training Strategies for Efficient Embodied Reasoning はコメントを受け付けていません

Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning

要約

このペーパーでは、強化学習(RL)を使用して、エンドツーエンドの自律駆動剤のトレーニングの課題に対処します。
RLエージェントは通常、シミュレーションにおける周囲の道路利用者の一連のシナリオと名目上の動作で訓練され、一般化と実生活の展開を制限します。
ドメインランダム化は、ドライビングシナリオをランダムにサンプリングすることにより潜在的なソリューションを提供しますが、トレーニングシナリオ間の高いばらつきにより、非効率的なトレーニングと最適なポリシーを頻繁に引き起こします。
これらの制限に対処するために、エージェントの進化する機能に基づいて、適応的な複雑さで運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案します。
専門家のバイアスを導入し、スケーラビリティを欠く手動で設計されたカリキュラムとは異なり、私たちのフレームワークには、学習の可能性に基づいて運転シナリオを自動的に生成および変異させる「教師」を組み込みます – エージェントの現在のポリシーから導出されたエージェント中心のメトリック – は、専門家の設計の必要性を排除します。
このフレームワークは、エージェントがマスターしたシナリオを除外することにより、トレーニング効率を向上させます。
エージェントがカメラ画像から運転ポリシーを学習する補強学習設定でフレームワークを評価します。
固定シナリオトレーニングやドメインのランダム化を含むベースライン方法との比較結果は、私たちのアプローチが一般化の強化につながり、より高い成功率を達成することを示しています。トラフィック密度が低い+9 \%、トラフィック密度が高い+21 \%、トレーニングステップの少ない速度の収束。
私たちの調査結果は、RLベースの自律運転剤の堅牢性と効率を改善するACLの可能性を強調しています。

要約(オリジナル)

This paper addresses the challenges of training end-to-end autonomous driving agents using Reinforcement Learning (RL). RL agents are typically trained in a fixed set of scenarios and nominal behavior of surrounding road users in simulations, limiting their generalization and real-life deployment. While domain randomization offers a potential solution by randomly sampling driving scenarios, it frequently results in inefficient training and sub-optimal policies due to the high variance among training scenarios. To address these limitations, we propose an automatic curriculum learning framework that dynamically generates driving scenarios with adaptive complexity based on the agent’s evolving capabilities. Unlike manually designed curricula that introduce expert bias and lack scalability, our framework incorporates a “teacher” that automatically generates and mutates driving scenarios based on their learning potential — an agent-centric metric derived from the agent’s current policy — eliminating the need for expert design. The framework enhances training efficiency by excluding scenarios the agent has mastered or finds too challenging. We evaluate our framework in a reinforcement learning setting where the agent learns a driving policy from camera images. Comparative results against baseline methods, including fixed scenario training and domain randomization, demonstrate that our approach leads to enhanced generalization, achieving higher success rates: +9\% in low traffic density, +21\% in high traffic density, and faster convergence with fewer training steps. Our findings highlight the potential of ACL in improving the robustness and efficiency of RL-based autonomous driving agents.

arxiv情報

著者 Ahmed Abouelazm,Tim Weinstein,Tim Joseph,Philip Schörner,J. Marius Zöllner
発行日 2025-05-13 06:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning はコメントを受け付けていません

UAV-VLRR: Vision-Language Informed NMPC for Rapid Response in UAV Search and Rescue

要約

緊急捜索救助(SAR)の操作では、従来の手動ドローン制御が非効率的な複雑な環境で、迅速かつ正確なターゲット識別が必要です。
これらのシナリオに対処するために、この研究では、迅速なSARシステムであるUAV-VLRR(Vision-Language-Rapid-Response)が開発されています。
このシステムは、2つの側面で構成されています。1)視覚言語モデル(VLM)の力(VLM)の力を活用するマルチモーダルシステムと、シーン解釈のためのChATGPT-4O(LLM)の自然言語処理能力。
2)マルチモーダルシステムの出力に従って飛行するためのドローンによる迅速な応答のための障害物回避を備えた非線形モデル予測制御(NMPC)。
この作業は、ドローンがそのミッションを迅速かつ安全な方法で実行できるようにしながら、SARミッションを計画するためにオペレーターにより直感的で自然なアプローチを提供することにより、緊急SAR操作の応答時間を改善することを目的としています。
テストしたとき、私たちのアプローチは、既製のオートパイロットと比較した場合、平均で33.75%、人間のパイロットと比較した場合は54.6%でした。
uav-vlrrのビデオ:https://youtu.be/kjqqgkkt1xy

要約(オリジナル)

Emergency search and rescue (SAR) operations often require rapid and precise target identification in complex environments where traditional manual drone control is inefficient. In order to address these scenarios, a rapid SAR system, UAV-VLRR (Vision-Language-Rapid-Response), is developed in this research. This system consists of two aspects: 1) A multimodal system which harnesses the power of Visual Language Model (VLM) and the natural language processing capabilities of ChatGPT-4o (LLM) for scene interpretation. 2) A non-linearmodel predictive control (NMPC) with built-in obstacle avoidance for rapid response by a drone to fly according to the output of the multimodal system. This work aims at improving response times in emergency SAR operations by providing a more intuitive and natural approach to the operator to plan the SAR mission while allowing the drone to carry out that mission in a rapid and safe manner. When tested, our approach was faster on an average by 33.75% when compared with an off-the-shelf autopilot and 54.6% when compared with a human pilot. Video of UAV-VLRR: https://youtu.be/KJqQGKKt1xY

arxiv情報

著者 Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Oleg Sautenkov,Artem Lykov,Valerii Serpiva,Dzmitry Tsetserukou
発行日 2025-05-13 06:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | UAV-VLRR: Vision-Language Informed NMPC for Rapid Response in UAV Search and Rescue はコメントを受け付けていません

UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation

要約

UAV-VLA(Visual-Language-action)システムは、航空ロボットとのコミュニケーションを促進するために設計されたツールです。
衛星画像処理を視覚言語モデル(VLM)とGPTの強力な機能と統合することにより、UAV-VLAを使用すると、ユーザーは簡単なテキストリクエストを通じて一般的なフライトパスとアクションプランを生成できます。
このシステムは、衛星画像によって提供される豊富なコンテキスト情報を活用して、意思決定とミッション計画の強化を可能にします。
VLMによる視覚分析とGPTによる自然言語処理の組み合わせにより、ユーザーはパスアンドアクションセットを提供し、空中操作をより効率的でアクセスしやすくします。
新しく開発された方法は、22%の作成された軌道の長さの違いと、K-Nearest Neighbors(KNN)アプローチのユークリッド距離で34.22 mで34.22 mで目的のオブジェクトを見つけることにおける平均誤差を示しました。

要約(オリジナル)

The UAV-VLA (Visual-Language-Action) system is a tool designed to facilitate communication with aerial robots. By integrating satellite imagery processing with the Visual Language Model (VLM) and the powerful capabilities of GPT, UAV-VLA enables users to generate general flight paths-and-action plans through simple text requests. This system leverages the rich contextual information provided by satellite images, allowing for enhanced decision-making and mission planning. The combination of visual analysis by VLM and natural language processing by GPT can provide the user with the path-and-action set, making aerial operations more efficient and accessible. The newly developed method showed the difference in the length of the created trajectory in 22% and the mean error in finding the objects of interest on a map in 34.22 m by Euclidean distance in the K-Nearest Neighbors (KNN) approach.

arxiv情報

著者 Oleg Sautenkov,Yasheerah Yaqoot,Artem Lykov,Muhammad Ahsan Mustafa,Grik Tadevosyan,Aibek Akhmetkazy,Miguel Altamirano Cabrera,Mikhail Martynov,Sausar Karaf,Dzmitry Tsetserukou
発行日 2025-05-13 06:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation はコメントを受け付けていません