MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation

要約

Vision-and-Language Navigation(VLN)は、具体化されたAIの重要なタスクであり、自然言語の指示に従っている間、エージェントが多様で目に見えない環境をナビゲートする必要があります。
従来のアプローチは、意思決定のための時空間コンテキストとして歴史的観察に大きく依存しており、重要なストレージと計算オーバーヘッドにつながります。
この論文では、注釈付きセマンティックマップ(ASM)を活用して履歴フレームを置き換える新しいエンドツーエンドVLNモデルであるMapNavを紹介します。
具体的には、私たちのアプローチは、各エピソードの開始時にトップダウンのセマンティックマップを構築し、各タイムステップで更新し、正確なオブジェクトマッピングと構造化されたナビゲーション情報を可能にします。
次に、主要な領域の明示的なテキストラベルでこのマップを強化し、抽象セマンティクスを明確なナビゲーションキューに変換し、ASMを生成します。
MAPNAVエージェントは、構築されたASMを入力として使用し、VLMの強力なエンドツーエンド機能を使用してVLNをエンパワーします。
広範な実験は、MapNavがシミュレートされた環境と実世界の両方の環境の両方で最先端の(SOTA)パフォーマンスを達成し、私たちの方法の有効性を検証することを示しています。
さらに、ASM生成ソースコードとデータセットをリリースして、再現性を確保し、貴重なリソースをフィールドに提供します。
提案されたMapNavは、VLNの新しいメモリ表現方法として使用できると考えており、この分野での将来の研究への道を開いています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a key task in Embodied AI, requiring agents to navigate diverse and unseen environments while following natural language instructions. Traditional approaches rely heavily on historical observations as spatio-temporal contexts for decision making, leading to significant storage and computational overhead. In this paper, we introduce MapNav, a novel end-to-end VLN model that leverages Annotated Semantic Map (ASM) to replace historical frames. Specifically, our approach constructs a top-down semantic map at the start of each episode and update it at each timestep, allowing for precise object mapping and structured navigation information. Then, we enhance this map with explicit textual labels for key regions, transforming abstract semantics into clear navigation cues and generate our ASM. MapNav agent using the constructed ASM as input, and use the powerful end-to-end capabilities of VLM to empower VLN. Extensive experiments demonstrate that MapNav achieves state-of-the-art (SOTA) performance in both simulated and real-world environments, validating the effectiveness of our method. Moreover, we will release our ASM generation source code and dataset to ensure reproducibility, contributing valuable resources to the field. We believe that our proposed MapNav can be used as a new memory representation method in VLN, paving the way for future research in this field.

arxiv情報

著者 Lingfeng Zhang,Xiaoshuai Hao,Qinwen Xu,Qiang Zhang,Xinyao Zhang,Pengwei Wang,Jing Zhang,Zhongyuan Wang,Shanghang Zhang,Renjing Xu
発行日 2025-02-21 09:01:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation はコメントを受け付けていません

DynamicGSG: Dynamic 3D Gaussian Scene Graphs for Environment Adaptation

要約

実際のシナリオでは、エージェントや人間の活動によって引き起こされる環境の変化により、ロボットがさまざまな長期的なタスクを実行することが非常に困難になります。
動的な環境を効果的に理解し、適応させるために、ロボットの知覚システムは、インスタンスレベルのセマンティック情報を抽出し、環境をきれいな方法で再構築し、環境の変化に応じてメモリ内の環境表現を更新する必要があります。
これらの課題に対処するために、\ textbf {dynamicgsg}を提案します。これは、ガウスのスプラッティングを活用するダイナミックで高忠実な、オープンボキャブラリーシーングラフ生成システムです。
私たちのシステムは、次の3つの重要なコンポーネントで構成されています。(1)高度なビジョンファンデーションモデルを使用して階層シーングラフを構築して、環境内のオブジェクトの空間的およびセマンティックな関係を表す、(2)ガウスマップを最適化するためのジョイント機能損失を設計する
再構築、および(3)長期的な環境適応のための実際の環境の変化に従って、ガウスのマップとシーングラフの更新。
実験とアブレーション研究は、セマンティックセグメンテーション、言語誘導オブジェクトの検索、および再構築品質の観点から、提案された方法のパフォーマンスと有効性を示しています。
さらに、実際の実験室環境でシステムの動的な更新機能を検証しました。
ソースコードは、〜\ href {https://github.com/geluzhou/dynamic-gsg} {https://github.com/geluzhou/dynamicgsg}でリリースされます。

要約(オリジナル)

In real-world scenarios, the environment changes caused by agents or human activities make it extremely challenging for robots to perform various long-term tasks. To effectively understand and adapt to dynamic environments, the perception system of a robot needs to extract instance-level semantic information, reconstruct the environment in a fine-grained manner, and update its environment representation in memory according to environment changes. To address these challenges, We propose \textbf{DynamicGSG}, a dynamic, high-fidelity, open-vocabulary scene graph generation system leveraging Gaussian splatting. Our system comprises three key components: (1) constructing hierarchical scene graphs using advanced vision foundation models to represent the spatial and semantic relationships of objects in the environment, (2) designing a joint feature loss to optimize the Gaussian map for incremental high-fidelity reconstruction, and (3) updating the Gaussian map and scene graph according to real environment changes for long-term environment adaptation. Experiments and ablation studies demonstrate the performance and efficacy of the proposed method in terms of semantic segmentation, language-guided object retrieval, and reconstruction quality. Furthermore, we have validated the dynamic updating capabilities of our system in real laboratory environments. The source code will be released at:~\href{https://github.com/GeLuzhou/Dynamic-GSG}{https://github.com/GeLuzhou/DynamicGSG}.

arxiv情報

著者 Luzhou Ge,Xiangyu Zhu,Zhuo Yang,Xuesong Li
発行日 2025-02-21 09:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DynamicGSG: Dynamic 3D Gaussian Scene Graphs for Environment Adaptation はコメントを受け付けていません

Highly dynamic physical interaction for robotics: design and control of an active remote center of compliance

要約

ロボット相互作用制御は、アクティブなアプローチが選択されているか受動的なアプローチが選択されているかに応じて、低ダイナミクスまたは低柔軟性に限定されることがよくあります。
この作業では、アクティブおよびパッシブ相互作用制御の利点を組み合わせたハイブリッド制御スキームを導入します。
これを達成するために、相互作用力を直接制御するために使用できる受動的でアクティブな要素に基づく、新しいアクティブリモートコンプライアンスセンター(ARCC)の設計を提案します。
純粋にロボットベースの相互作用スキームとの動的比較のために、代理モデルを紹介します。
比較検証では、ARCCは相互作用のダイナミクスを大幅に改善し、最大31倍のモーション帯域幅の増加につながります。
ロボットコントローラーへの統合と同様に、コントロールアプローチをさらに紹介します。
最後に、PEGインホール、トップハットレールアセンブリ、次の問題などのさまざまな産業用ベンチマークでARCCを分析し、最新の問題と比較して、ダイナミックと柔軟性を強調します。
提案されたシステムは、アプリケーションが低サイクル時間を敏感な操作と組み合わせて必要とする場合に特に適しています。

要約(オリジナル)

Robot interaction control is often limited to low dynamics or low flexibility, depending on whether an active or passive approach is chosen. In this work, we introduce a hybrid control scheme that combines the advantages of active and passive interaction control. To accomplish this, we propose the design of a novel Active Remote Center of Compliance (ARCC), which is based on a passive and active element which can be used to directly control the interaction forces. We introduce surrogate models for a dynamic comparison against purely robot-based interaction schemes. In a comparative validation, ARCC drastically improves the interaction dynamics, leading to an increase in the motion bandwidth of up to 31 times. We introduce further our control approach as well as the integration in the robot controller. Finally, we analyze ARCC on different industrial benchmarks like peg-in-hole, top-hat rail assembly and contour following problems and compare it against the state of the art, to highlight the dynamic and flexibility. The proposed system is especially suited if the application requires a low cycle time combined with a sensitive manipulation.

arxiv情報

著者 Christian Friedrich,Patrick Frank,Marco Santin,Matthias Haag
発行日 2025-02-21 09:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Highly dynamic physical interaction for robotics: design and control of an active remote center of compliance はコメントを受け付けていません

Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions

要約

具体化されたマルチモーダル大規模モデル(EMLM)は、複雑で現実世界の環境における知覚、認知、および行動のギャップを埋める可能性があるため、近年大きな注目を集めています。
この包括的なレビューでは、大規模な言語モデル(LLMS)、大型ビジョンモデル(LVM)、その他のモデルなど、そのようなモデルの開発を調査しながら、他の新興アーキテクチャも調査します。
具体化された知覚、ナビゲーション、相互作用、およびシミュレーションに焦点を当てて、EMLMSの進化について説明します。
さらに、このレビューは、これらのモデルのトレーニングと評価に使用されるデータセットの詳細な分析を提供し、効果的な学習のための多様で高品質のデータの重要性を強調しています。
この論文は、スケーラビリティ、一般化、リアルタイムの意思決定の問題など、EMLMが直面する重要な課題も特定しています。
最後に、将来の方向性を概説し、ますます自律的なシステムの開発を進めるためのマルチモーダルセンシング、推論、および行動の統合を強調しました。
最先端の方法の詳細な分析を提供し、重要なギャップを特定することにより、このペーパーは、EMLMSとそのアプリケーションの多様なドメイン全体のアプリケーションの将来の進歩を促すことを目的としています。

要約(オリジナル)

Embodied multimodal large models (EMLMs) have gained significant attention in recent years due to their potential to bridge the gap between perception, cognition, and action in complex, real-world environments. This comprehensive review explores the development of such models, including Large Language Models (LLMs), Large Vision Models (LVMs), and other models, while also examining other emerging architectures. We discuss the evolution of EMLMs, with a focus on embodied perception, navigation, interaction, and simulation. Furthermore, the review provides a detailed analysis of the datasets used for training and evaluating these models, highlighting the importance of diverse, high-quality data for effective learning. The paper also identifies key challenges faced by EMLMs, including issues of scalability, generalization, and real-time decision-making. Finally, we outline future directions, emphasizing the integration of multimodal sensing, reasoning, and action to advance the development of increasingly autonomous systems. By providing an in-depth analysis of state-of-the-art methods and identifying critical gaps, this paper aims to inspire future advancements in EMLMs and their applications across diverse domains.

arxiv情報

著者 Shoubin Chen,Zehao Wu,Kai Zhang,Chunyu Li,Baiyang Zhang,Fei Ma,Fei Richard Yu,Qingquan Li
発行日 2025-02-21 09:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions はコメントを受け付けていません

Rapid Online Learning of Hip Exoskeleton Assistance Preferences

要約

股関節外骨格は、さまざまなシナリオにわたる有効性と、さまざまなユーザーに適応する能力により、人気が高まっています。
ただし、支援をパーソナライズするには、多くの場合、長いチューニング手順と計算的に集中的なアルゴリズムが必要であり、ほとんどの既存の方法にはユーザーフィードバックが組み込まれていません。
この作業では、股関節外骨格支援に対するユーザーの好みを迅速に学習するための新しいアプローチを提案します。
独特のランダムに生成されたアシストプロファイルのペアワイズ比較を実行し、アクティブなクエリを通じて参加者の好みを収集します。
ユーザーのフィードバックは、その信念を更新し、ユーザー依存の報酬機能を学習し、それに応じて支援トルクプロファイルを変更する優先学習アルゴリズムに統合されます。
8人の健康な被験者の結果は、異なる優先トルクプロファイルを示し、ユーザーの選択は、摂動プロファイルと比較して一貫性を保ちます。
ユーザーの好みの包括的な評価は、個々のウォーキング戦略との密接な関係を明らかにしています。
テストされたトルクプロファイルは、運動学の相乗効果を混乱させず、参加者は動きと同期している支援トルクを支持し、デバイスからの負の力が低下します。
この簡単なアプローチにより、ユーザーの好みと報酬の迅速な学習が可能になり、報酬ベースの人間と骨格の相互作用に関する将来の研究が根拠があります。

要約(オリジナル)

Hip exoskeletons are increasing in popularity due to their effectiveness across various scenarios and their ability to adapt to different users. However, personalizing the assistance often requires lengthy tuning procedures and computationally intensive algorithms, and most existing methods do not incorporate user feedback. In this work, we propose a novel approach for rapidly learning users’ preferences for hip exoskeleton assistance. We perform pairwise comparisons of distinct randomly generated assistive profiles, and collect participants preferences through active querying. Users’ feedback is integrated into a preference-learning algorithm that updates its belief, learns a user-dependent reward function, and changes the assistive torque profiles accordingly. Results from eight healthy subjects display distinct preferred torque profiles, and users’ choices remain consistent when compared to a perturbed profile. A comprehensive evaluation of users’ preferences reveals a close relationship with individual walking strategies. The tested torque profiles do not disrupt kinematic joint synergies, and participants favor assistive torques that are synchronized with their movements, resulting in lower negative power from the device. This straightforward approach enables the rapid learning of users preferences and rewards, grounding future studies on reward-based human-exoskeleton interaction.

arxiv情報

著者 Giulia Ramella,Auke Ijspeert,Mohamed Bouri
発行日 2025-02-21 10:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Rapid Online Learning of Hip Exoskeleton Assistance Preferences はコメントを受け付けていません

GaRLIO: Gravity enhanced Radar-LiDAR-Inertial Odometry

要約

最近、重力は、潜在的な垂直ドリフトを緩和するための状態推定の重要な制約として強調されています。
既存のオンライン重力推定方法は、IMU測定と組み合わせたポーズ推定に依存しています。これは、直接速度測定が利用できない場合にベストプラクティスと見なされます。
ただし、レーダーセンサーが直接的な速度データを提供しているため、重力推定にまだ利用されていない測定値は、重力推定の精度を大幅に改善する重要な機会を見つけました。
提案されている重力強化レーダーライダー介入臭トメトリーであるガリオは、重力を堅牢に予測して垂直ドリフトを減らし、同時に点ごとの速度測定を使用した状態推定パフォーマンスを向上させることができます。
さらに、Garlioは、Ladarを使用してLidar Point Cloudsから動的オブジェクトを削除することにより、動的環境での堅牢性を保証します。
私たちの方法は、垂直ドリフトに陥りやすいさまざまな環境での実験を通じて検証され、従来のライダー腸の臭気測定法と比較して優れた性能を示しています。
ソースコードを公開して、さらなる研究開発を促進します。
https://github.com/chiyunnoh/garlio

要約(オリジナル)

Recently, gravity has been highlighted as a crucial constraint for state estimation to alleviate potential vertical drift. Existing online gravity estimation methods rely on pose estimation combined with IMU measurements, which is considered best practice when direct velocity measurements are unavailable. However, with radar sensors providing direct velocity data-a measurement not yet utilized for gravity estimation-we found a significant opportunity to improve gravity estimation accuracy substantially. GaRLIO, the proposed gravity-enhanced Radar-LiDAR-Inertial Odometry, can robustly predict gravity to reduce vertical drift while simultaneously enhancing state estimation performance using pointwise velocity measurements. Furthermore, GaRLIO ensures robustness in dynamic environments by utilizing radar to remove dynamic objects from LiDAR point clouds. Our method is validated through experiments in various environments prone to vertical drift, demonstrating superior performance compared to traditional LiDAR-Inertial Odometry methods. We make our source code publicly available to encourage further research and development. https://github.com/ChiyunNoh/GaRLIO

arxiv情報

著者 Chiyun Noh,Wooseong Yang,Minwoo Jung,Sangwoo Jung,Ayoung Kim
発行日 2025-02-21 10:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GaRLIO: Gravity enhanced Radar-LiDAR-Inertial Odometry はコメントを受け付けていません

Self-Mixing Laser Interferometry for Robotic Tactile Sensing

要約

セルフミキシング干渉法(SMI)は、マイクロバイブ化を検出する際の感度で賞賛されていますが、ターゲットとの物理的接触は必要ありません。
ロボット工学では、マイクロバイブレーションは伝統的にオブジェクトスリップのマーカーとして解釈されており、最近は外因性接触の顕著な指標として解釈されてきました。
SMIをスリップおよび外因性接触センシングに使用する最初のロボットの指先を提示します。
この設計は、指先パッケージの読み出し回路を包む前後の両方で、制御された振動源の測定を通じて検証されます。
次に、SMI指先は3つの実験を通じて音響センシングと比較されます。
結果は、技術決定マップに蒸留されます。
SMIは、微妙なスリップイベントにより敏感であり、周囲のノイズに対して大幅に堅牢であることがわかりました。
ロボットの指先にSMIを統合すると、ロボット工学における触覚センシングの新しい新しい枝を提供すると結論付けています。

要約(オリジナル)

Self-mixing interferometry (SMI) has been lauded for its sensitivity in detecting microvibrations, while requiring no physical contact with its target. In robotics, microvibrations have traditionally been interpreted as a marker for object slip, and recently as a salient indicator of extrinsic contact. We present the first-ever robotic fingertip making use of SMI for slip and extrinsic contact sensing. The design is validated through measurement of controlled vibration sources, both before and after encasing the readout circuit in its fingertip package. Then, the SMI fingertip is compared to acoustic sensing through three experiments. The results are distilled into a technology decision map. SMI was found to be more sensitive to subtle slip events and significantly more robust against ambient noise. We conclude that the integration of SMI in robotic fingertips offers a new, promising branch of tactile sensing in robotics.

arxiv情報

著者 Remko Proesmans,Ward Goossens,Lowiek Van den Stockt,Lowie Christiaen,Francis wyffels
発行日 2025-02-21 11:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Self-Mixing Laser Interferometry for Robotic Tactile Sensing はコメントを受け付けていません

Feature Aggregation with Latent Generative Replay for Federated Continual Learning of Socially Appropriate Robot Behaviours

要約

ロボットは、並行して展開されたいくつかのロボットが独立して学習しながら学習を共有することができるフェデレートラーニング(FL)設定を探索することが重要です。
現実世界の環境でのこの共同学習には、ソーシャルロボットが変化し、予測不可能な状況とさまざまなタスク設定に動的に適応する必要があります。
私たちの仕事は、ロボットが彼らの行動の社会的適切性を学ぶ必要があるシミュレートされたリビングルーム環境を探求することにより、これらの課題に対処することに貢献しています。
まず、Federated Root(Fedroot)平均化を提案します。これは、個々のタスクベースの学習からクライアント全体で学習を特徴とする新しい重量集約戦略です。
第二に、挑戦的な環境に適応するために、Fedrootベースの重量集約を使用し、学習した擬似リハーサルのジェネレーターモデルを各クライアントに埋め込む新しいフェデレーション継続学習(FCL)戦略であるフェドルートをフェデレート潜在生成リプレイ(FEDLGR)に拡張します。
リソース効率の高い方法で忘れを緩和するための機能埋め込み。
我々の結果は、Fedrootベースの方法が競争力のあるパフォーマンスを提供しながら、リソース消費量を大幅に削減することを示していることを示しています(CPU使用率は最大86%、GPU使用量では最大72%)。
さらに、我々の結果は、FedrootベースのFCLメソッドが他の方法よりも優れていると同時に、効率的なソリューション(最大84%のCPUおよび92%GPU使用削減)を提供し、FEDLGRが評価全体で最高の結果を提供することを示しています。

要約(オリジナル)

It is critical for robots to explore Federated Learning (FL) settings where several robots, deployed in parallel, can learn independently while also sharing their learning with each other. This collaborative learning in real-world environments requires social robots to adapt dynamically to changing and unpredictable situations and varying task settings. Our work contributes to addressing these challenges by exploring a simulated living room environment where robots need to learn the social appropriateness of their actions. First, we propose Federated Root (FedRoot) averaging, a novel weight aggregation strategy which disentangles feature learning across clients from individual task-based learning. Second, to adapt to challenging environments, we extend FedRoot to Federated Latent Generative Replay (FedLGR), a novel Federated Continual Learning (FCL) strategy that uses FedRoot-based weight aggregation and embeds each client with a generator model for pseudo-rehearsal of learnt feature embeddings to mitigate forgetting in a resource-efficient manner. Our results show that FedRoot-based methods offer competitive performance while also resulting in a sizeable reduction in resource consumption (up to 86% for CPU usage and up to 72% for GPU usage). Additionally, our results demonstrate that FedRoot-based FCL methods outperform other methods while also offering an efficient solution (up to 84% CPU and 92% GPU usage reduction), with FedLGR providing the best results across evaluations.

arxiv情報

著者 Nikhil Churamani,Saksham Checker,Fethiye Irmak Dogan,Hao-Tien Lewis Chiang,Hatice Gunes
発行日 2025-02-21 11:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Feature Aggregation with Latent Generative Replay for Federated Continual Learning of Socially Appropriate Robot Behaviours はコメントを受け付けていません

Learning Long-Horizon Robot Manipulation Skills via Privileged Action

要約

長老の接触豊富なタスクは、まばらな報酬を備えた高次元状態空間を効果的に調査するため、強化学習で学習するのが困難です。
学習プロセスは、多くの場合、ローカルの最適に閉じ込められ、複雑なシナリオにタスク固有の報酬微調整を要求します。
この作業では、特権的なアクションをカリキュラム学習で活用する構造化されたフレームワークを提案し、広範な報酬エンジニアリングや参照の軌跡に依存することなく、ポリシーが長老症のスキルを効率的に獲得できるようにします。
具体的には、シミュレーションで特権アクションを使用して、実際のシナリオで実装することができない一般的なトレーニング手順を使用します。
これらの特権には、オブジェクトとの相互作用と探索を強化するリラックスした制約と仮想力が含まれます。
我々の結果は、非理解できない操作を自然に把握して、把握できないポーズからオブジェクトを持ち上げるための複雑なマルチステージの長距離タスクを成功裏に達成します。
普通の報酬構造を維持し、さまざまな環境にわたる多様で堅牢な行動への収束を示すことにより、一般性を示します。
さらに、実際の実験では、アプローチを使用して獲得したスキルが実世界の環境に移行できることをさらに確認し、堅牢で複雑なパフォーマンスを示します。
私たちのアプローチは、これらのタスクで最新の方法を上回り、他のタスクが失敗するソリューションに収束します。

要約(オリジナル)

Long-horizon contact-rich tasks are challenging to learn with reinforcement learning, due to ineffective exploration of high-dimensional state spaces with sparse rewards. The learning process often gets stuck in local optimum and demands task-specific reward fine-tuning for complex scenarios. In this work, we propose a structured framework that leverages privileged actions with curriculum learning, enabling the policy to efficiently acquire long-horizon skills without relying on extensive reward engineering or reference trajectories. Specifically, we use privileged actions in simulation with a general training procedure that would be infeasible to implement in real-world scenarios. These privileges include relaxed constraints and virtual forces that enhance interaction and exploration with objects. Our results successfully achieve complex multi-stage long-horizon tasks that naturally combine non-prehensile manipulation with grasping to lift objects from non-graspable poses. We demonstrate generality by maintaining a parsimonious reward structure and showing convergence to diverse and robust behaviors across various environments. Additionally, real-world experiments further confirm that the skills acquired using our approach are transferable to real-world environments, exhibiting robust and intricate performance. Our approach outperforms state-of-the-art methods in these tasks, converging to solutions where others fail.

arxiv情報

著者 Xiaofeng Mao,Yucheng Xu,Zhaole Sun,Elle Miller,Daniel Layeghi,Michael Mistry
発行日 2025-02-21 13:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Long-Horizon Robot Manipulation Skills via Privileged Action はコメントを受け付けていません

Robust 4D Radar-aided Inertial Navigation for Aerial Vehicles

要約

LIDARとカメラは無人航空機(UAV)で遍在していますが、挑戦的な環境では効果がない場合がありますが、4Dミリ波(MMW)レーダーは、堅牢な3D横方向の測定値とドップラー速度測定を提供することができます。
このホワイトペーパーでは、UAVのための効率的で堅牢なエラーステートKalmanフィルター(ESKF)ベースのレーダー介護ナビゲーションを開発します。
提案されたアプローチの重要なアイデアは、ポイントツーディストリションレーダースキャンマッチングであり、適切な不確実性の資格を備えた動きの制約を提供します。これは、ドップラー速度測定とともに、緊密に結合した方法でナビゲーション状態を更新するために使用されます。
さらに、前のマップに対する堅牢なキーフレームベースのマッチングスキーム(利用可能な場合)を提案して、蓄積されたナビゲーションエラーをバインドし、レーダーベースのグローバルローカリゼーションソリューションを高精度で提供します。
広範な現実世界の実験的検証は、提案されたレーダー支援慣性ナビゲーションが精度と堅牢性の両方で最新の方法を上回ることを実証しています。

要約(オリジナル)

While LiDAR and cameras are becoming ubiquitous for unmanned aerial vehicles (UAVs) but can be ineffective in challenging environments, 4D millimeter-wave (MMW) radars that can provide robust 3D ranging and Doppler velocity measurements are less exploited for aerial navigation. In this paper, we develop an efficient and robust error-state Kalman filter (ESKF)-based radar-inertial navigation for UAVs. The key idea of the proposed approach is the point-to-distribution radar scan matching to provide motion constraints with proper uncertainty qualification, which are used to update the navigation states in a tightly coupled manner, along with the Doppler velocity measurements. Moreover, we propose a robust keyframe-based matching scheme against the prior map (if available) to bound the accumulated navigation errors and thus provide a radar-based global localization solution with high accuracy. Extensive real-world experimental validations have demonstrated that the proposed radar-aided inertial navigation outperforms state-of-the-art methods in both accuracy and robustness.

arxiv情報

著者 Jinwen Zhu,Jun Hu,Xudong Zhao,Xiaoming Lang,Yinian Mao,Guoquan Huang
発行日 2025-02-21 13:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust 4D Radar-aided Inertial Navigation for Aerial Vehicles はコメントを受け付けていません