RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour

要約

Racevlaは、視覚言語アクション(VLA)を活用して人間のような行動をエミュレートすることにより、自律的なレーシングドローンナビゲーションの革新的なアプローチを提示します。
この研究では、ドローンがリアルタイムの環境フィードバックに基づいてナビゲーション戦略を適応させることができる高度なアルゴリズムの統合を調査し、人間のパイロットの意思決定プロセスを模倣しています。
収集されたレーシングドローンデータセットで微調整されたこのモデルは、ドローンレース環境の複雑さにもかかわらず、強力な一般化を示しています。
Racevlaは、動きのあるOpenVLAの動き(75.0対60.0)およびセマンティック一般化(45.5対36.3)を上回り、ダイナミックカメラと単純化されたモーションタスクの恩恵を受けます。
ただし、オブジェクトサイズが異なる動的環境での操縦の課題により、視覚(79.6対87.0)および物理的(50.0対76.7)一般化がわずかに減少しました。
Racevlaは、視覚(79.6対52.0)、モーション(75.0対55.0)、物理(50.0対26.7)、およびセマンティック(45.5対38.8)のすべての軸でRT-2を上回り、複雑な環境でのリアルタイム調整の堅牢性を示しています。
実験により、最大速度は2.02 m/sの平均速度が明らかになり、一貫した操縦性が明らかになり、高速シナリオを効果的に処理するRacevlaの能力が示されました。
これらの調査結果は、競争力のあるレースコンテキストでの高性能ナビゲーションのRacevlaの可能性を強調しています。
Racevlaコードベース、前処理されたウェイト、およびデータセットは、このhttp URLで入手できます:https://racevla.github.io/

要約(オリジナル)

RaceVLA presents an innovative approach for autonomous racing drone navigation by leveraging Visual-Language-Action (VLA) to emulate human-like behavior. This research explores the integration of advanced algorithms that enable drones to adapt their navigation strategies based on real-time environmental feedback, mimicking the decision-making processes of human pilots. The model, fine-tuned on a collected racing drone dataset, demonstrates strong generalization despite the complexity of drone racing environments. RaceVLA outperforms OpenVLA in motion (75.0 vs 60.0) and semantic generalization (45.5 vs 36.3), benefiting from the dynamic camera and simplified motion tasks. However, visual (79.6 vs 87.0) and physical (50.0 vs 76.7) generalization were slightly reduced due to the challenges of maneuvering in dynamic environments with varying object sizes. RaceVLA also outperforms RT-2 across all axes – visual (79.6 vs 52.0), motion (75.0 vs 55.0), physical (50.0 vs 26.7), and semantic (45.5 vs 38.8), demonstrating its robustness for real-time adjustments in complex environments. Experiments revealed an average velocity of 1.04 m/s, with a maximum speed of 2.02 m/s, and consistent maneuverability, demonstrating RaceVLA’s ability to handle high-speed scenarios effectively. These findings highlight the potential of RaceVLA for high-performance navigation in competitive racing contexts. The RaceVLA codebase, pretrained weights, and dataset are available at this http URL: https://racevla.github.io/

arxiv情報

著者 Valerii Serpiva,Artem Lykov,Artyom Myshlyaev,Muhammad Haris Khan,Ali Alridha Abdulkarim,Oleg Sautenkov,Dzmitry Tsetserukou
発行日 2025-03-04 12:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour はコメントを受け付けていません

TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping

要約

バードアイビュー(BEV)知覚テクノロジーは、環境認識、ナビゲーション、意思決定のためのトップダウン2Dマップを生成するため、自律運転に不可欠です。
それにもかかわらず、視覚マップ生成に焦点を当てた現在のBEVマップ生成研究の大部分は、深さを認識していない推論機能を欠いています。
それらは、閉塞の管理と複雑な環境の取り扱いにおいて限られた有効性を示し、有害な気象条件や低光のシナリオの下で知覚パフォーマンスが顕著に低下します。
したがって、このホワイトペーパーでは、TS-CGNETを提案します。これは、中心線誘導拡散と時間的空間融合を活用します。
事前知識に基づいたこの視覚フレームワークは、BEVマップを構築するための既存のネットワークに統合するために設計されています。
具体的には、このフレームワークは3つの部分に分離されています。ローカルマッピングシステムには、純粋に視覚的な情報を使用したセマンティックマップの初期生成が含まれます。
時間空間アライナーモジュール(TSAM)は、変換マトリックスを適用することにより、履歴情報をマッピング生成に統合します。
Centerline-Guided Diffusionモデル(CGDM)は、拡散モデルに基づく予測モジュールです。
CGDMは、セマンティックセグメンテーションの再構築を強化するために、空間的資格メカニズムを通じて中心線情報を組み込みます。
私たちは、公共のヌスセンとさまざまな腐敗の下での堅牢性ベンチマークに関する方法によって、BEVセマンティックセグメンテーションマップを構築します。
BEV HDマッピングのタスクでは、60x30m、120x60m、および240x60mの知覚範囲で1.90%、1.73%、2.87%を改善します。
TS-CGNETは、BEVセマンティックマッピングのタスクで、知覚された範囲100x100mの1.92%の改善を達成します。
さらに、TS-CGNETは、さまざまな気象条件と240x60mの知覚範囲でのセンサー干渉の下で、検出精度が2.92%の平均改善を達成します。
ソースコードは、https://github.com/krabs-h/ts-cgnetで公開されます。

要約(オリジナル)

Bird’s Eye View (BEV) perception technology is crucial for autonomous driving, as it generates top-down 2D maps for environment perception, navigation, and decision-making. Nevertheless, the majority of current BEV map generation studies focusing on visual map generation lack depth-aware reasoning capabilities. They exhibit limited efficacy in managing occlusions and handling complex environments, with a notable decline in perceptual performance under adverse weather conditions or low-light scenarios. Therefore, this paper proposes TS-CGNet, which leverages Temporal-Spatial fusion with Centerline-Guided diffusion. This visual framework, grounded in prior knowledge, is designed for integration into any existing network for building BEV maps. Specifically, this framework is decoupled into three parts: Local mapping system involves the initial generation of semantic maps using purely visual information; The Temporal-Spatial Aligner Module (TSAM) integrates historical information into mapping generation by applying transformation matrices; The Centerline-Guided Diffusion Model (CGDM) is a prediction module based on the diffusion model. CGDM incorporates centerline information through spatial-attention mechanisms to enhance semantic segmentation reconstruction. We construct BEV semantic segmentation maps by our methods on the public nuScenes and the robustness benchmarks under various corruptions. Our method improves 1.90%, 1.73%, and 2.87% for perceived ranges of 60x30m, 120x60m, and 240x60m in the task of BEV HD mapping. TS-CGNet attains an improvement of 1.92% for perceived ranges of 100x100m in the task of BEV semantic mapping. Moreover, TS-CGNet achieves an average improvement of 2.92% in detection accuracy under varying weather conditions and sensor interferences in the perception range of 240x60m. The source code will be publicly available at https://github.com/krabs-H/TS-CGNet.

arxiv情報

著者 Xinying Hong,Siyu Li,Kang Zeng,Hao Shi,Bomin Peng,Kailun Yang,Zhiyong Li
発行日 2025-03-04 13:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping はコメントを受け付けていません

Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance

要約

ロボットシステムの認識能力は、データセットの豊富さに依存しています。
大規模なデータセットでトレーニングされたモデル2(SAM2)は、知覚タスクに強い知覚の可能性を示していますが、その固有のトレーニングパラダイムは、RGB-Tタスクに適していないことを防ぎます。
これらの課題に対処するために、SAM2駆動のハイブリッド相互作用パラダイムであるShifnetを提案します。これは、効率的なRGBサーマル知覚のための言語ガイダンスでSAM2の可能性を解き放ちます。
私たちのフレームワークは、2つの重要なコンポーネントで構成されています。(1)セマンティックアウェアクロスモーダル融合(SACF)モジュールは、テキスト誘導親和性学習を通じてモダリティの貢献を動的にバランスさせ、SAM2の固有のRGBバイアスを克服します。
(2)セマンティックエンハンスメントモジュールを介してグローバルなセマンティック情報を強化し、カテゴリの埋め込みと組み合わせてクロスモーダルセマンティックの一貫性を増幅する不均一なプロンプトデコーダー(HPD)。
32.27mのトレーニング可能なパラメーターで、Shifnetはパブリックベンチマークで最先端のセグメンテーションパフォーマンスを達成し、PST900で89.8%、FMBでそれぞれ67.8%に達します。
このフレームワークは、事前に訓練された大型モデルのRGB-Tセグメンテーションタスクへの適応を促進し、データ収集に関連する高コストを効果的に緩和し、包括的な認識能力を備えたロボットシステムを授与します。
ソースコードは、https://github.com/iasakit3t/shifnetで公開されます。

要約(オリジナル)

The perception capability of robotic systems relies on the richness of the dataset. Although Segment Anything Model 2 (SAM2), trained on large datasets, demonstrates strong perception potential in perception tasks, its inherent training paradigm prevents it from being suitable for RGB-T tasks. To address these challenges, we propose SHIFNet, a novel SAM2-driven Hybrid Interaction Paradigm that unlocks the potential of SAM2 with linguistic guidance for efficient RGB-Thermal perception. Our framework consists of two key components: (1) Semantic-Aware Cross-modal Fusion (SACF) module that dynamically balances modality contributions through text-guided affinity learning, overcoming SAM2’s inherent RGB bias; (2) Heterogeneous Prompting Decoder (HPD) that enhances global semantic information through a semantic enhancement module and then combined with category embeddings to amplify cross-modal semantic consistency. With 32.27M trainable parameters, SHIFNet achieves state-of-the-art segmentation performance on public benchmarks, reaching 89.8% on PST900 and 67.8% on FMB, respectively. The framework facilitates the adaptation of pre-trained large models to RGB-T segmentation tasks, effectively mitigating the high costs associated with data collection while endowing robotic systems with comprehensive perception capabilities. The source code will be made publicly available at https://github.com/iAsakiT3T/SHIFNet.

arxiv情報

著者 Jiayi Zhao,Fei Teng,Kai Luo,Guoqiang Zhao,Zhiyong Li,Xu Zheng,Kailun Yang
発行日 2025-03-04 13:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance はコメントを受け付けていません

Research on visual simultaneous localization and mapping technology based on near infrared light

要約

視覚的な同時ローカリゼーションとマッピング(VSLAM)が環境光干渉と光度の矛盾の影響を受けやすい問題を考慮して、視覚的な同時ローカリゼーションとマッピングテクノロジーがほぼ赤外れの知覚(NIR-VSLAM)が提案されています。
周囲の光干渉を避けるために、近赤外光は光源として革新的に選択されます。
このホワイトペーパーでは、誤差エネルギー関数、ハロー因子、露出時間、および光源放射源補正法の光度パラメーター推定が提案されており、直接スパース臭トメトリー(DSO)の位置決め精度が大幅に向上します。
4つの大規模なシーンで提案された方法の実現可能性が検証されており、自動駆動およびモバイルロボットでの視覚的な位置付けの参照を提供します。

要約(オリジナル)

In view of the problems that visual simultaneous localization and mapping (VSLAM) are susceptible to environmental light interference and luminosity inconsistency, the visual simultaneous localization and mapping technology based on near infrared perception (NIR-VSLAM) is proposed. In order to avoid ambient light interference, the near infrared light is innovatively selected as the light source. The luminosity parameter estimation of error energy function, halo factor and exposure time and the light source irradiance correction method are proposed in this paper, which greatly improves the positioning accuracy of Direct Sparse Odometry (DSO). The feasibility of the proposed method in four large scenes is verified, which provides the reference for visual positioning in automatic driving and mobile robot.

arxiv情報

著者 Rui Ma,Mengfang Liu,Boliang Li,Xinghui Li
発行日 2025-03-04 13:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Research on visual simultaneous localization and mapping technology based on near infrared light はコメントを受け付けていません

Learning Dexterous In-Hand Manipulation with Multifingered Hands via Visuomotor Diffusion

要約

視覚運動拡散ポリシーを使用して、マルチフィンガーの手で器用な操作を学習するためのフレームワークを提示します。
私たちのシステムは、4本指のアレグロハンドの高速で応答性の高いテレオ操作セットアップを活用することにより、片手でボトルの蓋を外すなど、複雑な手の操作タスクを可能にします。
手の動きを追跡し、正確な制御のために逆運動とモーションリターゲティングを適用する拡張現実(AR)インターフェイスを使用して、高品質の専門家デモを収集します。
ARヘッドセットはリアルタイムの視覚化を提供し、ジェスチャーコントロールはテレオ操作を合理化します。
ポリシー学習を強化するために、HDBSCANクラスタリングと階層(GLOSH)アルゴリズムからのグローバルローカルアウトエルスコアに基づいた新しいデモンストレーション外れ値除去アプローチを紹介し、パフォーマンスを低下させる可能性のある低品質のデモンストレーションを効果的に除外します。
現実世界の設定で広範囲にアプローチを評価し、プロジェクトWebサイトですべての実験ビデオを提供します:https://dex-manip.github.io/

要約(オリジナル)

We present a framework for learning dexterous in-hand manipulation with multifingered hands using visuomotor diffusion policies. Our system enables complex in-hand manipulation tasks, such as unscrewing a bottle lid with one hand, by leveraging a fast and responsive teleoperation setup for the four-fingered Allegro Hand. We collect high-quality expert demonstrations using an augmented reality (AR) interface that tracks hand movements and applies inverse kinematics and motion retargeting for precise control. The AR headset provides real-time visualization, while gesture controls streamline teleoperation. To enhance policy learning, we introduce a novel demonstration outlier removal approach based on HDBSCAN clustering and the Global-Local Outlier Score from Hierarchies (GLOSH) algorithm, effectively filtering out low-quality demonstrations that could degrade performance. We evaluate our approach extensively in real-world settings and provide all experimental videos on the project website: https://dex-manip.github.io/

arxiv情報

著者 Piotr Koczy,Michael C. Welle,Danica Kragic
発行日 2025-03-04 13:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Dexterous In-Hand Manipulation with Multifingered Hands via Visuomotor Diffusion はコメントを受け付けていません

Human-aligned Safe Reinforcement Learning for Highway On-Ramp Merging in Dense Traffic

要約

自律運転の意思決定のためのほとんどの強化学習(RL)は、安全性と他の目標のトレードオフのバランスをとるのを難しくしているため、安全性をコストの代わりに報酬として考慮します。
人間のリスクの好みもめったに組み込まれておらず、訓練されたポリシーはユーザーにとって保守的または攻撃的である可能性があります。
この目的のために、この研究では、自律的な合併のための人間に並べられた安全なRLアプローチを提案します。この研究では、高レベルの決定問題がユーザーのリスク選好を安全制約に組み込み、その後モデル予測制御(MPC)ベースの低レベル制御を組み込んだ制約付きマルコフ決定プロセス(CMDP)として定式化されます。
RLポリシーの安全レベルは、ファジー制御方法を使用したリスクの好みとトラフィック密度に基づいて、CMDPの制約のコスト制限を計算することにより調整できます。
安全でないまたは無効なアクションをフィルタリングするために、MPCメソッドを使用してRLアクションを事前に実行し、周囲のエージェントと衝突チェックを実行するアクションシールドメカニズムを設計します。
また、RLの安全性とサンプル効率を高める上でのシールドメカニズムの有効性を検証するための理論的証拠を提供します。
交通密度の複数のレベルでのシミュレーション実験では、私たちの方法が交通効率を犠牲にすることなく安全違反を大幅に減らすことができることが示されています。
さらに、CMDPにおけるリスク優先順位のある制約とアクションシールドの使用により、最終ポリシーの安全レベルを調整するだけでなく、トレーニング段階での安全違反を減らすこともできます。

要約(オリジナル)

Most reinforcement learning (RL) approaches for the decision-making of autonomous driving consider safety as a reward instead of a cost, which makes it hard to balance the tradeoff between safety and other objectives. Human risk preference has also rarely been incorporated, and the trained policy might be either conservative or aggressive for users. To this end, this study proposes a human-aligned safe RL approach for autonomous merging, in which the high-level decision problem is formulated as a constrained Markov decision process (CMDP) that incorporates users’ risk preference into the safety constraints, followed by a model predictive control (MPC)-based low-level control. The safety level of RL policy can be adjusted by computing cost limits of CMDP’s constraints based on risk preferences and traffic density using a fuzzy control method. To filter out unsafe or invalid actions, we design an action shielding mechanism that pre-executes RL actions using an MPC method and performs collision checks with surrounding agents. We also provide theoretical proof to validate the effectiveness of the shielding mechanism in enhancing RL’s safety and sample efficiency. Simulation experiments in multiple levels of traffic densities show that our method can significantly reduce safety violations without sacrificing traffic efficiency. Furthermore, due to the use of risk preference-aware constraints in CMDP and action shielding, we can not only adjust the safety level of the final policy but also reduce safety violations during the training stage, proving a promising solution for online learning in real-world environments.

arxiv情報

著者 Yang Li,Shijie Yuan,Yuan Chang,Xiaolong Chen,Qisong Yang,Zhiyuan Yang,Hongmao Qin
発行日 2025-03-04 13:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human-aligned Safe Reinforcement Learning for Highway On-Ramp Merging in Dense Traffic はコメントを受け付けていません

Velocity-free task-space regulator for robot manipulators with external disturbances

要約

このペーパーでは、外部外障害を服用するロボットマニピュレーターのタスクスペースの堅牢な調節の問題に対処します。
内部モデルの原則と受動性ベースの出力フィードバック制御アプローチを組み合わせることにより、速度のない制御法が提案されます。
開発された出力フィードバックコントローラーは、レギュレーションエラーの漸近収束だけでなく、望ましくない外部ステップ/正弦波乱れの抑制も保証します。
提案された方法の可能性は、マルチジョイントロボットマニピュレーター制御システムの合成のための、そのシンプルさ、直感的に魅力的な、および単純なゲイン選択基準にあります。

要約(オリジナル)

This paper addresses the problem of task-space robust regulation of robot manipulators subject to external disturbances. A velocity-free control law is proposed by combining the internal model principle and the passivity-based output-feedback control approach. The developed output-feedback controller ensures not only asymptotic convergence of the regulation error but also suppression of unwanted external step/sinusoidal disturbances. The potential of the proposed method lies in its simplicity, intuitively appealing, and simple gain selection criteria for synthesis of multi-joint robot manipulator control systems.

arxiv情報

著者 Haiwen Wu,Bayu Jayawardhana,Dabo Xu
発行日 2025-03-04 13:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Velocity-free task-space regulator for robot manipulators with external disturbances はコメントを受け付けていません

Learning-Based Passive Fault-Tolerant Control of a Quadrotor with Rotor Failure

要約

このペーパーでは、ローター障害情報やコントローラーの切り替えを必要とせずに、障害のないローター障害から完全なローター障害までの範囲の条件を含む、arbitrary意的な単一ローター障害を処理できる四肢装置の学習ベースのパッシブ障害耐性制御(PFTC)方法を提案します。
ローター断層を乱れとして扱い、複数の障害シナリオの単一のコントローラーに依存する既存の方法とは異なり、このアプローチでは、新しいセレクターコントローラーネットワーク構造を導入します。
このアーキテクチャは、障害検出モジュールとコントローラーを統合されたポリシーネットワークに統合し、PFTCの複数の障害シナリオとアクティブ障害耐性制御(AFTC)の優れた制御パフォーマンスに効果的に組み合わせます。
パフォーマンスを最適化するために、ポリシーネットワークは、補強学習(RL)、動作クローニング(BC)、および障害情報を使用して監視された学習を相乗するハイブリッドフレームワークを使用してトレーニングされます。
広範なシミュレーションと現実世界の実験は、提案された方法を検証し、最先端のPFTCおよびAFTCアプローチと比較して、障害応答速度と位置追跡性能の大幅な改善を示します。

要約(オリジナル)

This paper proposes a learning-based passive fault-tolerant control (PFTC) method for quadrotor capable of handling arbitrary single-rotor failures, including conditions ranging from fault-free to complete rotor failure, without requiring any rotor fault information or controller switching. Unlike existing methods that treat rotor faults as disturbances and rely on a single controller for multiple fault scenarios, our approach introduces a novel Selector-Controller network structure. This architecture integrates fault detection module and the controller into a unified policy network, effectively combining the adaptability to multiple fault scenarios of PFTC with the superior control performance of active fault-tolerant control (AFTC). To optimize performance, the policy network is trained using a hybrid framework that synergizes reinforcement learning (RL), behavior cloning (BC), and supervised learning with fault information. Extensive simulations and real-world experiments validate the proposed method, demonstrating significant improvements in fault response speed and position tracking performance compared to state-of-the-art PFTC and AFTC approaches.

arxiv情報

著者 Jiehao Chen,Kaidong Zhao,Zihan Liu,YanJie Li,Yunjiang Lou
発行日 2025-03-04 14:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Learning-Based Passive Fault-Tolerant Control of a Quadrotor with Rotor Failure はコメントを受け付けていません

Discovering Antagonists in Networks of Systems: Robot Deployment

要約

文脈上の異常検出方法が提案され、カバレッジタスクを実行するロボット群れの物理的動きに適用されます。
群れの通常の動作のシミュレーションを使用して、環境の現在のコンテキスト内でロボットの動きの可能性を予測するように正規化されたフローが訓練されています。
適用中、観測された動きの予測可能性は、ロボットエージェントを通常または拮抗的であると分類する検出基準によって使用されます。
提案された方法は、拮抗行動の5つの異なる戦略で評価されます。
重要なことに、通常のロボット動作の容易に入手可能なシミュレーションデータのみがトレーニングに使用され、異常の性質を事前に知らないことです。
最良の検出基準は、通常のロボットエージェントでは5%未満の誤検知速度を維持しながら、各拮抗型の少なくとも80%を正しく分類します。
さらに、この方法はハードウェア実験で検証されており、シミュレートされたシナリオと同様の結果が得られます。
最先端のアプローチと比較して、正規化フローの予測パフォーマンスと検出基準の堅牢性の両方が増加します。

要約(オリジナル)

A contextual anomaly detection method is proposed and applied to the physical motions of a robot swarm executing a coverage task. Using simulations of a swarm’s normal behavior, a normalizing flow is trained to predict the likelihood of a robot motion within the current context of its environment. During application, the predicted likelihood of the observed motions is used by a detection criterion that categorizes a robot agent as normal or antagonistic. The proposed method is evaluated on five different strategies of antagonistic behavior. Importantly, only readily available simulated data of normal robot behavior is used for training such that the nature of the anomalies need not be known beforehand. The best detection criterion correctly categorizes at least 80% of each antagonistic type while maintaining a false positive rate of less than 5% for normal robot agents. Additionally, the method is validated in hardware experiments, yielding results similar to the simulated scenarios. Compared to the state-of-the-art approach, both the predictive performance of the normalizing flow and the robustness of the detection criterion are increased.

arxiv情報

著者 Ingeborg Wenger,Peter Eberhard,Henrik Ebel
発行日 2025-03-04 14:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, G.3 | Discovering Antagonists in Networks of Systems: Robot Deployment はコメントを受け付けていません

Robustness of LiDAR-Based Pose Estimation: Evaluating and Improving Odometry and Localization Under Common Point Cloud Corruptions

要約

正確で信頼できるポーズ推定、つまり、自律的なロボットと車両の正確な位置と方向を決定することは、ナビゲーションやマッピングなどのタスクにとって重要です。
Lidarは、ポーズ推定のために広く使用されているセンサーであり、臭気とローカリゼーションが2つの主要なタスクです。
Lidar Odometryは、連続したスキャン間の相対動きを推定しますが、Lidarのローカリゼーションは、リアルタイムスキャンを事前に録音したマップと並べて、グローバルなポーズを取得します。
それらは異なる目的とアプリケーションシナリオを持っていますが、どちらも根本的な手法としてポイントクラウド登録に依存しており、不利な条件(雨など)によって引き起こされるデータ腐敗の共有課題に直面しています。
最先端の(SOTA)ポーズ推定システムは、クリーンデータに対して高精度を達成しましたが、破損したデータに対する堅牢性は不明のままです。
この作業では、18の合成現実世界ポイントクラウド腐敗にわたって5つのSota Lidarポーズ推定システムを体系的に評価するフレームワークを提案します。
私たちの実験は、特定の腐敗の下で臭気測定システムが大幅に低下し、相対的な位置エラーは0.5%から80%以上増加し、ローカリゼーションシステムは非常に堅牢なままであることが明らかになりました。
さらに、除去技術がノイズ誘発性腐敗の悪影響を効果的に軽減できることを実証し、破損したデータを使用した学習ベースのシステムを再訓練することで、さまざまな腐敗タイプに対する堅牢性が大幅に向上することを実証します。

要約(オリジナル)

Accurate and reliable pose estimation, i.e., determining the precise position and orientation of autonomous robots and vehicles, is critical for tasks like navigation and mapping. LiDAR is a widely used sensor for pose estimation, with odometry and localization being two primary tasks. LiDAR odometry estimates the relative motion between consecutive scans, while LiDAR localization aligns real-time scans with a pre-recorded map to obtain a global pose. Although they have different objectives and application scenarios, both rely on point cloud registration as the underlying technique and face shared challenges of data corruption caused by adverse conditions (e.g., rain). While state-of-the-art (SOTA) pose estimation systems achieved high accuracy on clean data, their robustness to corrupted data remains unclear. In this work, we propose a framework to systematically evaluate five SOTA LiDAR pose estimation systems across 18 synthetic real-world point cloud corruptions. Our experiments reveal that odometry systems degrade significantly under specific corruptions, with relative position errors increasing from 0.5% to more than 80%, while localization systems remain highly robust. We further demonstrate that denoising techniques can effectively mitigate the adverse effects of noise-induced corruptions, and re-training learning-based systems with corrupted data significantly enhances the robustness against various corruption types.

arxiv情報

著者 Bo Yang,Tri Minh Triet Pham,Jinqiu Yang
発行日 2025-03-04 14:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robustness of LiDAR-Based Pose Estimation: Evaluating and Improving Odometry and Localization Under Common Point Cloud Corruptions はコメントを受け付けていません