UAV Marketplace Simulation Tool for BVLOS Operations

要約

視覚的な視線(BVLO)を超えて動作する自律的なマルチUAV(無人航空機)ミッションでチーム形成を評価するためのシミュレーションツールを提示します。
このツールは、ビザンチンUAVが運用を混乱させようとする動的および敵対的条件でのUAVコラボレーションとミッションの実行をモデル化します。
当社のツールにより、研究者は、制御された環境におけるさまざまなチーム形成戦略を構成可能なミッションパラメーターと敵対的な行動と統合および比較できます。
各シミュレーション実行のログは、統計分析を簡単に実行できるように、パフォーマンスメトリックとともに構造化された方法で保存されます。
このツールは、実際のアプリケーションでUAV調整戦略をテストおよび改善するために汎用性があります。

要約(オリジナル)

We present a simulation tool for evaluating team formation in autonomous multi-UAV (Unmanned Aerial Vehicle) missions that operate Beyond Visual Line of Sight (BVLOS). The tool models UAV collaboration and mission execution in dynamic and adversarial conditions, where Byzantine UAVs attempt to disrupt operations. Our tool allows researchers to integrate and compare various team formation strategies in a controlled environment with configurable mission parameters and adversarial behaviors. The log of each simulation run is stored in a structured way along with performance metrics so that statistical analysis could be done straightforwardly. The tool is versatile for testing and improving UAV coordination strategies in real-world applications.

arxiv情報

著者 Kıvanç Şerefoğlu,Önder Gürcan,Reyhan Aydoğan
発行日 2025-04-30 08:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.RO | UAV Marketplace Simulation Tool for BVLOS Operations はコメントを受け付けていません

UAV-VLN: End-to-End Vision Language guided Navigation for UAVs

要約

AIガイド付きの自律性の中心的な課題は、エージェントが自然言語コマンドに基づいて以前に見えなかった環境で現実的かつ効果的にナビゲートできるようにすることです。
UAV-VLNは、無人航空機(UAV)の新規エンドツーエンドビジョンナビゲーション(VLN)フレームワーク(UAV)を提案します。
私たちのシステムは、自由形式の自然言語の指示を解釈し、それらを視覚的な観察に接地し、さまざまな環境で実行可能な空中軌道を計画します。
UAV-VLNは、LLMSの常識的な推論機能を活用して高レベルのセマンティック目標を解析し、ビジョンモデルは環境内の意味的に関連するオブジェクトを検出およびローカライズします。
これらのモダリティを融合させることにより、UAVは空間的関係について推論し、人間の指示での参照を明確にし、タスク固有の監督を最小限に抑えてコンテキスト認識行動を計画できます。
堅牢で解釈可能な意思決定を確保するために、フレームワークには、言語的意図を視覚的コンテキストに合わせたクロスモーダル接地メカニズムが含まれています。
多様な屋内および屋外ナビゲーションシナリオを越えてUAV-VLNを評価し、タスク固有のトレーニングを最小限に抑えて、新しい指示や環境に一般化する能力を示しています。
我々の結果は、命令に従う精度と軌道効率の大幅な改善を示しており、安全で直感的で一般化可能なUAV自律性のためのLLM主導の視覚言語インターフェイスの可能性を強調しています。

要約(オリジナル)

A core challenge in AI-guided autonomy is enabling agents to navigate realistically and effectively in previously unseen environments based on natural language commands. We propose UAV-VLN, a novel end-to-end Vision-Language Navigation (VLN) framework for Unmanned Aerial Vehicles (UAVs) that seamlessly integrates Large Language Models (LLMs) with visual perception to facilitate human-interactive navigation. Our system interprets free-form natural language instructions, grounds them into visual observations, and plans feasible aerial trajectories in diverse environments. UAV-VLN leverages the common-sense reasoning capabilities of LLMs to parse high-level semantic goals, while a vision model detects and localizes semantically relevant objects in the environment. By fusing these modalities, the UAV can reason about spatial relationships, disambiguate references in human instructions, and plan context-aware behaviors with minimal task-specific supervision. To ensure robust and interpretable decision-making, the framework includes a cross-modal grounding mechanism that aligns linguistic intent with visual context. We evaluate UAV-VLN across diverse indoor and outdoor navigation scenarios, demonstrating its ability to generalize to novel instructions and environments with minimal task-specific training. Our results show significant improvements in instruction-following accuracy and trajectory efficiency, highlighting the potential of LLM-driven vision-language interfaces for safe, intuitive, and generalizable UAV autonomy.

arxiv情報

著者 Pranav Saxena,Nishant Raghuvanshi,Neena Goveas
発行日 2025-04-30 08:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UAV-VLN: End-to-End Vision Language guided Navigation for UAVs はコメントを受け付けていません

SimPRIVE: a Simulation framework for Physical Robot Interaction with Virtual Environments

要約

サイバー物理システムでの機械学習の使用は、産業と学界の両方の関心を集めています。
ただし、ニューラルネットワークと補強学習剤の予測不可能な動作に対する一般的なソリューションはまだ見つかりませんでした。
それにもかかわらず、写真と現実的なシミュレーターの改善は、さまざまな仮想シナリオで複雑なアルゴリズムの広範なテストへの道を開いており、実世界で実装するのに高価で危険です。
このペーパーでは、ループ中の車両プラットフォームとして動作する仮想環境との物理的ロボット相互作用のためのシミュレーションフレームワークであるSimpriveを紹介し、現実世界で車両を操作しながら仮想世界をレンダリングします。
Simpriveを使用して、ROS 2で実行される物理的なモバイルロボットは、オブジェクト、人、またはプログラム可能な動作を持つ他の車両を入力できるUnreal Engine 5グラフィックエンジンで構築された仮想世界でデジタルツインを簡単に動かすように構成できます。
Simpriveは、実行時間を抑え、高速レンダリングを可能にするために軽量であると同時に、カスタムまたは事前に構築された仮想世界に対応するように設計されています。
その主な利点は、テストキャンペーンのリスクとコストを最小限に抑えながら、完全なソフトウェアとハ​​ードウェアスタックで複雑なアルゴリズムをテストする可能性にあります。
このフレームワークは、日常のオブジェクトや人々が障害物として配置されている仮想オフィス環境をナビゲートするAgilex Scout Mini Roverの障害物回避のために訓練された強化学習エージェントをテストすることにより検証されています。
リダーベースのヒューリスティックのおかげで、物理的なローバーは屋内限定スペースで衝突することなく動きます。

要約(オリジナル)

The use of machine learning in cyber-physical systems has attracted the interest of both industry and academia. However, no general solution has yet been found against the unpredictable behavior of neural networks and reinforcement learning agents. Nevertheless, the improvements of photo-realistic simulators have paved the way towards extensive testing of complex algorithms in different virtual scenarios, which would be expensive and dangerous to implement in the real world. This paper presents SimPRIVE, a simulation framework for physical robot interaction with virtual environments, which operates as a vehicle-in-the-loop platform, rendering a virtual world while operating the vehicle in the real world. Using SimPRIVE, any physical mobile robot running on ROS 2 can easily be configured to move its digital twin in a virtual world built with the Unreal Engine 5 graphic engine, which can be populated with objects, people, or other vehicles with programmable behavior. SimPRIVE has been designed to accommodate custom or pre-built virtual worlds while being light-weight to contain execution times and allow fast rendering. Its main advantage lies in the possibility of testing complex algorithms on the full software and hardware stack while minimizing the risks and costs of a test campaign. The framework has been validated by testing a reinforcement learning agent trained for obstacle avoidance on an AgileX Scout Mini rover that navigates a virtual office environment where everyday objects and people are placed as obstacles. The physical rover moves with no collision in an indoor limited space, thanks to a LiDAR-based heuristic.

arxiv情報

著者 Federico Nesti,Gianluca D’Amico,Mauro Marinoni,Giorgio Buttazzo
発行日 2025-04-30 09:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SimPRIVE: a Simulation framework for Physical Robot Interaction with Virtual Environments はコメントを受け付けていません

OPAL: Visibility-aware LiDAR-to-OpenStreetMap Place Recognition via Adaptive Radial Fusion

要約

Lidar Placeの認識は、大規模な屋外環境における自律的なナビゲーションとクロスモーダルのローカリゼーションの重要な機能です。
既存のアプローチは、主に事前に構築された3D密度の高いマップまたは空中画像に依存しており、重大なストレージオーバーヘッドを課し、リアルタイムの適応性を欠いています。
この論文では、OpenstreetMap(OSM)を軽量で最新の事前にレバレッジするというLidar Place認識の新しいネットワークであるOpalを提案します。
私たちの主要な革新は、2つの慎重に設計されたコンポーネントを介して、スパースライダースキャンと構造化されたOSMデータの間のドメインの格差を埋めることにあります。
第一に、両方のモダリティから最大の観測可能な領域を識別して機能学習を導くクロスモーダル視認性マスク。
第二に、放射状の特徴を識別的なグローバル記述子に動的に統合する適応型放射状融合モジュール。
KittiおよびKitti-360のデータセットでの広範な実験は、Opalの優位性を示しており、Top-1検索されたマッチの @1mしきい値で15.98%高いリコールを達成し、最先端のアプローチと比較して12倍速い推論速度を達成しています。
コードとデータセットは公開されます。

要約(オリジナル)

LiDAR place recognition is a critical capability for autonomous navigation and cross-modal localization in large-scale outdoor environments. Existing approaches predominantly depend on pre-built 3D dense maps or aerial imagery, which impose significant storage overhead and lack real-time adaptability. In this paper, we propose OPAL, a novel network for LiDAR place recognition that leverages OpenStreetMap (OSM) as a lightweight and up-to-date prior. Our key innovation lies in bridging the domain disparity between sparse LiDAR scans and structured OSM data through two carefully designed components. First, a cross-modal visibility mask that identifies maximal observable regions from both modalities to guide feature learning. Second, an adaptive radial fusion module that dynamically consolidates radial features into discriminative global descriptors. Extensive experiments on the KITTI and KITTI-360 datasets demonstrate OPAL’s superiority, achieving 15.98% higher recall at @1m threshold for top-1 retrieved matches, along with 12x faster inference speed compared to the state-of-the-art approach. Code and datasets will be publicly available.

arxiv情報

著者 Shuhao Kang,Martin Y. Liao,Yan Xia,Olaf Wysocki,Boris Jutzi,Daniel Cremers
発行日 2025-04-30 10:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OPAL: Visibility-aware LiDAR-to-OpenStreetMap Place Recognition via Adaptive Radial Fusion はコメントを受け付けていません

Provably-Safe, Online System Identification

要約

正確な操作タスクには、ペイロード慣性パラメーターの正確な知識が必要です。
残念ながら、環境との衝突を避けながら、ロボットシステムが入力と状態の制約を満たすことを保証しながら、未知のペイロードのこれらのパラメーターを特定することは重要な課題です。
このペーパーでは、ロボットマニピュレーターが運用上の安全保証を維持しながら、ペイロードパラメーターを安全かつ自動的に識別できるようにする統合フレームワークを紹介します。
フレームワークは、2つの相乗効果コンポーネントで構成されています。ロボット制約を尊重し、障害物を避けながら追跡できるシステム識別のための実証された安全性のエキサイティングな軌跡と、エンドエフェクターの潜在性パラメータの境界パラメータを想定している末端効果パラメータでの厳密な過剰近接境界を計算する堅牢なシステム識別法を生成するオンライン軌道計画および制御フレームワーク。
さまざまな未知のペイロードを備えた挑戦的なタスクを実行するロボットマニピュレーターの実験的検証は、識別プロセス全体で安全性を維持しながら、正確なパラメーター境界を確立する際のフレームワークの有効性を示しています。
このコードは、プロジェクトWebページhttps://roahmlab.github.io/onlinesafesysid/で入手できます。

要約(オリジナル)

Precise manipulation tasks require accurate knowledge of payload inertial parameters. Unfortunately, identifying these parameters for unknown payloads while ensuring that the robotic system satisfies its input and state constraints while avoiding collisions with the environment remains a significant challenge. This paper presents an integrated framework that enables robotic manipulators to safely and automatically identify payload parameters while maintaining operational safety guarantees. The framework consists of two synergistic components: an online trajectory planning and control framework that generates provably-safe exciting trajectories for system identification that can be tracked while respecting robot constraints and avoiding obstacles and a robust system identification method that computes rigorous overapproximative bounds on end-effector inertial parameters assuming bounded sensor noise. Experimental validation on a robotic manipulator performing challenging tasks with various unknown payloads demonstrates the framework’s effectiveness in establishing accurate parameter bounds while maintaining safety throughout the identification process. The code is available at our project webpage: https://roahmlab.github.io/OnlineSafeSysID/.

arxiv情報

著者 Bohao Zhang,Zichang Zhou,Ram Vasudevan
発行日 2025-04-30 10:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Provably-Safe, Online System Identification はコメントを受け付けていません

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

要約

ロボット操作の最近の進歩は、政策一般化を改善するための中間表現の可能性を強調しています。
この作業では、効果的な中間表現として接地マスクを探索し、2つの重要な利点のバランスを取ります。(1)ターゲットオブジェクトと配置領域を指定しながら、オブジェクトの形状とサイズに関する情報を伝える効果的な空間ガイダンス、および(2)多様な接地データセットに前処理された大規模な視覚層モデルによって駆動される広範な一般化ポテンシャル。
オブジェクト操作タスクのポリシーネットワークを導くための中間表現として接地マスクを活用する接地認識ロボット操作システムであるRobogroundを紹介します。
一般化をさらに調査して強化するために、オブジェクトと命令の多様なセットを使用して、大規模でシミュレートされたデータを生成するための自動パイプラインを提案します。
広範な実験は、データセットの価値と、中間ガイダンスとしての接地マスクの有効性を示しており、ロボットポリシーの一般化能力を大幅に向上させています。

要約(オリジナル)

Recent advancements in robotic manipulation have highlighted the potential of intermediate representations for improving policy generalization. In this work, we explore grounding masks as an effective intermediate representation, balancing two key advantages: (1) effective spatial guidance that specifies target objects and placement areas while also conveying information about object shape and size, and (2) broad generalization potential driven by large-scale vision-language models pretrained on diverse grounding datasets. We introduce RoboGround, a grounding-aware robotic manipulation system that leverages grounding masks as an intermediate representation to guide policy networks in object manipulation tasks. To further explore and enhance generalization, we propose an automated pipeline for generating large-scale, simulated data with a diverse set of objects and instructions. Extensive experiments show the value of our dataset and the effectiveness of grounding masks as intermediate guidance, significantly enhancing the generalization abilities of robot policies.

arxiv情報

著者 Haifeng Huang,Xinyi Chen,Yilun Chen,Hao Li,Xiaoshen Han,Zehan Wang,Tai Wang,Jiangmiao Pang,Zhou Zhao
発行日 2025-04-30 11:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RoboGround: Robotic Manipulation with Grounded Vision-Language Priors はコメントを受け付けていません

Leveraging Systems and Control Theory for Social Robotics: A Model-Based Behavioral Control Approach to Human-Robot Interaction

要約

ソーシャルロボット(SRS)は、その役割に関連する適切な社会的行動を示す一方で、人間と自律的に相互作用する必要があります。
ヘルスケア、教育、および交際に貢献することにより、SRSは生活の質を向上させます。
ただし、人間の精神状態に対する理解が限られているため、パーソナライズとユーザーエンゲージメントの維持は、SRSにとって依然として課題となっています。
したがって、SRSの人間の知覚、認知、意思決定の最近導入された数学的動的モデルを活用します。
このモデルのパラメーターを特定し、SRSの行動ステアリングシステムに展開することで、SRSの応答をユーザーの精神状態の進化に効果的にパーソナライズし、長期的なエンゲージメントとパーソナライズを強化できます。
私たちのアプローチは、目に見えない精神状態のダイナミクスをモデル化することにより、SRSの自律的な適応性をユニークに可能にし、SRSの透明性と認識に大きく貢献します。
モデルベースの制御システムは、それぞれ45〜90分の3つのチェスパズルセッションでNAOロボットと対話した10人の参加者との実験で検証しました。
特定されたモデルは、参加者の信念、目標、および感情を追跡する際に、0.067(つまり、可能な最大MSEの1.675%)の平均二乗誤差(MSE)を達成しました。
参加者の精神状態を追跡しなかったモデルのないコントローラーと比較して、私たちのアプローチは平均して16%増加しました。
参加者の相互作用後のフィードバック(専用アンケートを介して提供)により、モデル駆動型ロボットの知覚されたエンゲージメントと認識がさらに確認されました。
これらの結果は、モデルベースのアプローチのユニークな可能性と、人間とSRの相互作用を進める際の制御理論を強調しています。

要約(オリジナル)

Social robots (SRs) should autonomously interact with humans, while exhibiting proper social behaviors associated to their role. By contributing to health-care, education, and companionship, SRs will enhance life quality. However, personalization and sustaining user engagement remain a challenge for SRs, due to their limited understanding of human mental states. Accordingly, we leverage a recently introduced mathematical dynamic model of human perception, cognition, and decision-making for SRs. Identifying the parameters of this model and deploying it in behavioral steering system of SRs allows to effectively personalize the responses of SRs to evolving mental states of their users, enhancing long-term engagement and personalization. Our approach uniquely enables autonomous adaptability of SRs by modeling the dynamics of invisible mental states, significantly contributing to the transparency and awareness of SRs. We validated our model-based control system in experiments with 10 participants who interacted with a Nao robot over three chess puzzle sessions, 45 – 90 minutes each. The identified model achieved a mean squared error (MSE) of 0.067 (i.e., 1.675% of the maximum possible MSE) in tracking beliefs, goals, and emotions of participants. Compared to a model-free controller that did not track mental states of participants, our approach increased engagement by 16% on average. Post-interaction feedback of participants (provided via dedicated questionnaires) further confirmed the perceived engagement and awareness of the model-driven robot. These results highlight the unique potential of model-based approaches and control theory in advancing human-SR interactions.

arxiv情報

著者 Maria Morão Patrício,Anahita Jamshidnejad
発行日 2025-04-30 11:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Leveraging Systems and Control Theory for Social Robotics: A Model-Based Behavioral Control Approach to Human-Robot Interaction はコメントを受け付けていません

CoopScenes: Multi-Scene Infrastructure and Vehicle Data for Advancing Collective Perception in Autonomous Driving

要約

都市環境の複雑さの増加は、効果的な集団認識システムの可能性を強調しています。
これらの課題に対処するために、エゴベヒクルとサポートインフラストラクチャの両方から同期されたセンサーデータを提供する大規模なマルチシーンデータセットであるCoopScenesデータセットを提示します。データセットは、10 Hzで104分間の空間的および時間的に同期したデータを提供します。
わずか2.3ミリ秒の平均偏差で競争力のある同期を実現します。
さらに、データセットには、エゴベヒクルおよびインフラストラクチャセンサーからのポイントクラウドデータの正確な登録の新しい手順、自動アノテーションパイプライン、および顔とナンバープレートのオープンソース匿名化パイプラインが含まれています。
100の操作を備えた9つの多様なシーンをカバーするデータセットには、ドイツのシュトゥットガルト地域の3つの都市にわたる公共交通機関、都市建設現場、高速田舎の道路などのシナリオが特徴です。
完全なデータセットは527 GBのデータになり、.4MSE形式で提供されているため、包括的な開発キットから簡単にアクセスできます。
正確で大規模なデータを提供することにより、CoopScenesは、機械学習ベースのアプローチを含む、都市のモビリティのための集団的認識、リアルタイムセンサー登録、および協力的なインテリジェントシステムの研究を促進します。

要約(オリジナル)

The increasing complexity of urban environments has underscored the potential of effective collective perception systems. To address these challenges, we present the CoopScenes dataset, a large-scale, multi-scene dataset that provides synchronized sensor data from both the ego-vehicle and the supporting infrastructure.The dataset provides 104 minutes of spatially and temporally synchronized data at 10 Hz, resulting in 62,000 frames. It achieves competitive synchronization with a mean deviation of only 2.3 ms. Additionally the dataset includes a novel procedure for precise registration of point cloud data from the ego-vehicle and infrastructure sensors, automated annotation pipelines, and an open-source anonymization pipeline for faces and license plates. Covering nine diverse scenes with 100 maneuvers, the dataset features scenarios such as public transport hubs, city construction sites, and high-speed rural roads across three cities in the Stuttgart region, Germany. The full dataset amounts to 527 GB of data and is provided in the .4mse format, making it easily accessible through our comprehensive development kit. By providing precise, large-scale data, CoopScenes facilitates research in collective perception, real-time sensor registration, and cooperative intelligent systems for urban mobility, including machine learning-based approaches.

arxiv情報

著者 Marcel Vosshans,Alexander Baumann,Matthias Drueppel,Omar Ait-Aider,Youcef Mezouar,Thao Dang,Markus Enzweiler
発行日 2025-04-30 12:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CoopScenes: Multi-Scene Infrastructure and Vehicle Data for Advancing Collective Perception in Autonomous Driving はコメントを受け付けていません

Motion Generation for Food Topping Challenge 2024: Serving Salmon Roe Bowl and Picking Fried Chicken

要約

多くの産業でロボットが導入されていますが、食品産業は食品を扱うために繊細な動きだけでなく、環境に適応する複雑な動きも必要とするため、食料生産ロボットはまだ広く採用されていません。
フォースコントロールは、食品などの繊細なオブジェクトを処理するために重要です。
さらに、人間の教えに基づいてロボットの動きをすることで、複雑な動きを達成することが可能です。
4チャンネルの両側制御が提案されており、これにより、位置と力情報の同時教育が可能になります。
さらに、人間の教えを通じて得られた動きを再現し、学習を使用して適応的な動きを生成する方法が開発されました。
ロボットと自動化に関する2024 IEEE国際会議(ICRA 2024)で、食品トッピングチャレンジでの食品処理タスクのこれらの方法の有効性を実証しました。
米にサーモンローを提供するタスクのために、提案された方法の再現性と迅速な動きのために、私たちは最高のパフォーマンスを達成しました。
さらに、フライドチキンを摘むタスクのために、参加しているすべてのチームの中で最も多くのフライドチキンを選ぶことに成功しました。
このペーパーでは、これらの方法の実装とパフォーマンスについて説明します。

要約(オリジナル)

Although robots have been introduced in many industries, food production robots are yet to be widely employed because the food industry requires not only delicate movements to handle food but also complex movements that adapt to the environment. Force control is important for handling delicate objects such as food. In addition, achieving complex movements is possible by making robot motions based on human teachings. Four-channel bilateral control is proposed, which enables the simultaneous teaching of position and force information. Moreover, methods have been developed to reproduce motions obtained through human teachings and generate adaptive motions using learning. We demonstrated the effectiveness of these methods for food handling tasks in the Food Topping Challenge at the 2024 IEEE International Conference on Robotics and Automation (ICRA 2024). For the task of serving salmon roe on rice, we achieved the best performance because of the high reproducibility and quick motion of the proposed method. Further, for the task of picking fried chicken, we successfully picked the most pieces of fried chicken among all participating teams. This paper describes the implementation and performance of these methods.

arxiv情報

著者 Koki Inami,Masashi Konosu,Koki Yamane,Nozomu Masuya,Yunhan Li,Yu-Han Shu,Hiroshi Sato,Shinnosuke Homma,Sho Sakaino
発行日 2025-04-30 12:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Motion Generation for Food Topping Challenge 2024: Serving Salmon Roe Bowl and Picking Fried Chicken はコメントを受け付けていません

DEIO: Deep Event Inertial Odometry

要約

イベントカメラは、高速モーションや高ダイナミックレンジなどの挑戦的な状況を処理する際に、視覚臭トメトリ(VO)の大きな可能性を示しています。
この約束にもかかわらず、イベントデータのまばらでモーション依存性の特性は、実際のアプリケーションでの機能ベースまたは直接ベースのデータ関連メソッドのパフォーマンスを制限し続けています。
これらの制限に対処するために、学習ベースの方法と従来の非線形グラフベースの最適化を組み合わせた最初の単眼学習ベースのイベント型フレームワークであるディープイベント慣性匂い(DEIO)を提案します。
具体的には、イベントベースのリカレントネットワークが採用され、イベントパッチの正確でまばらな関連付けを時間の経過とともに提供します。
DeioはさらにIMUと統合して、最新のポーズを回復し、堅牢な状態推定を提供します。
学習した微分可能なバンドル調整(DBA)から派生したヘシアン情報は、キーフレームベースのスライドウィンドウ内にイベントパッチ対応とIMUの事前統合を緊密に組み込んだ共観測因子グラフを最適化するために利用されます。
包括的な検証は、DEIOが20を超える最先端の方法と比較して\ TextIT {10}で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Event cameras show great potential for visual odometry (VO) in handling challenging situations, such as fast motion and high dynamic range. Despite this promise, the sparse and motion-dependent characteristics of event data continue to limit the performance of feature-based or direct-based data association methods in practical applications. To address these limitations, we propose Deep Event Inertial Odometry (DEIO), the first monocular learning-based event-inertial framework, which combines a learning-based method with traditional nonlinear graph-based optimization. Specifically, an event-based recurrent network is adopted to provide accurate and sparse associations of event patches over time. DEIO further integrates it with the IMU to recover up-to-scale pose and provide robust state estimation. The Hessian information derived from the learned differentiable bundle adjustment (DBA) is utilized to optimize the co-visibility factor graph, which tightly incorporates event patch correspondences and IMU pre-integration within a keyframe-based sliding window. Comprehensive validations demonstrate that DEIO achieves superior performance on \textit{10} challenging public benchmarks compared with more than 20 state-of-the-art methods.

arxiv情報

著者 Weipeng Guan,Fuling Lin,Peiyu Chen,Peng Lu
発行日 2025-04-30 12:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DEIO: Deep Event Inertial Odometry はコメントを受け付けていません