SkyRover: A Modular Simulator for Cross-Domain Pathfinding

要約

無人航空機(UAV)と自動誘導車両(AGV)は、物流、監視、検査タスクなどでますます協力しています。
このペーパーでは、UAV-AGVマルチエージェントパスファインディング(MAPF)のモジュラーシミュレーターであるSkyroverを紹介します。
Skyroverは、リアルなエージェントダイナミクス、構成可能な3D環境、および外部ソルバーと学習方法のための便利なAPIをサポートしています。
地面と空中の操作を統一することにより、クロスドメインアルゴリズムの設計、テスト、およびベンチマークを促進します。
実験は、UAV-AGV調整における効率的なパスファインディングと高忠実度シミュレーションのためのSkyroverの能力を強調しています。
プロジェクトはhttps://sites.google.com/view/mapf3d/homeで入手できます。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) and Automated Guided Vehicles (AGVs) increasingly collaborate in logistics, surveillance, inspection tasks and etc. However, existing simulators often focus on a single domain, limiting cross-domain study. This paper presents the SkyRover, a modular simulator for UAV-AGV multi-agent pathfinding (MAPF). SkyRover supports realistic agent dynamics, configurable 3D environments, and convenient APIs for external solvers and learning methods. By unifying ground and aerial operations, it facilitates cross-domain algorithm design, testing, and benchmarking. Experiments highlight SkyRover’s capacity for efficient pathfinding and high-fidelity simulations in UAV-AGV coordination. Project is available at https://sites.google.com/view/mapf3d/home.

arxiv情報

著者 Wenhui Ma,Wenhao Li,Bo Jin,Changhong Lu,Xiangfeng Wang
発行日 2025-02-13 05:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | SkyRover: A Modular Simulator for Cross-Domain Pathfinding はコメントを受け付けていません

ImDy: Human Inverse Dynamics from Imitated Observations

要約

人間の運動観察から駆動されるトルクを再現することを目的とする逆ダイナミクス(ID)は、歩行分析のための重要なツールでした。
ただし、スケーラビリティが限られているため、より広いアプリケーションから一般的な動きに妨げられます。
従来の最適化ベースのIDには、高価な実験室のセットアップが必要であり、その可用性を制限します。
この問題を軽減するために、最近進歩的な人間の動き模倣アルゴリズムを活用して、データ駆動型の方法で人間の逆ダイナミクスを学習することを提案します。
重要な洞察は、人間のIDの知識は、直接適用されないものではないものの、モーション模倣者によって暗黙的に所有されているということです。
これに照らして、最先端のモーション模倣アルゴリズムと物理シミュレーターを備えた効率的なデータ収集パイプラインを考案し、その結果、模倣ダイナミクス(IMDY)としての大規模な人間の逆ダイナミクスベンチマークが得られます。
Imdyには、関節トルクと全身の接地反動力データを備えた150時間以上の動きが含まれています。
Imdyを使用すると、データ駆動型のヒト逆ダイナミクスソルバーIMDYS(OLVER)を完全に監視した方法でトレーニングします。
Imdyおよび実際のデータに関する実験は、人間の逆ダイナミクスと地上反力の推定におけるIMDYの印象的な能力を示しています。
さらに、基本的なモーション解析ツールとしてのIMDY(-S)の可能性は、ダウンストリームアプリケーションで展示されています。
プロジェクトページはhttps://foruck.github.io/imdy/です。

要約(オリジナル)

Inverse dynamics (ID), which aims at reproducing the driven torques from human kinematic observations, has been a critical tool for gait analysis. However, it is hindered from wider application to general motion due to its limited scalability. Conventional optimization-based ID requires expensive laboratory setups, restricting its availability. To alleviate this problem, we propose to exploit the recently progressive human motion imitation algorithms to learn human inverse dynamics in a data-driven manner. The key insight is that the human ID knowledge is implicitly possessed by motion imitators, though not directly applicable. In light of this, we devise an efficient data collection pipeline with state-of-the-art motion imitation algorithms and physics simulators, resulting in a large-scale human inverse dynamics benchmark as Imitated Dynamics (ImDy). ImDy contains over 150 hours of motion with joint torque and full-body ground reaction force data. With ImDy, we train a data-driven human inverse dynamics solver ImDyS(olver) in a fully supervised manner, which conducts ID and ground reaction force estimation simultaneously. Experiments on ImDy and real-world data demonstrate the impressive competency of ImDyS in human inverse dynamics and ground reaction force estimation. Moreover, the potential of ImDy(-S) as a fundamental motion analysis tool is exhibited with downstream applications. The project page is https://foruck.github.io/ImDy/.

arxiv情報

著者 Xinpeng Liu,Junxuan Liang,Zili Lin,Haowen Hou,Yong-Lu Li,Cewu Lu
発行日 2025-02-13 05:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | ImDy: Human Inverse Dynamics from Imitated Observations はコメントを受け付けていません

Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception

要約

安全性の高い認識システムには、信頼できる不確実性の定量化と、さまざまな運用条件下で安全性を維持するための原則的な棄権メカニズムの両方が必要です。
統計的に保証された不確実性の推定値を提供しながら、リスクの高いシナリオで選択的な予測を可能にする新しいデュアル閾値立体化フレームワークを提示します。
私たちのアプローチは、ROC分析を通じて最適化された棄権のしきい値と有効な予測セットを確保するコンフォーマルしきい値を一意に組み合わせて、信頼できない予測を特定しながら、分布のないカバレッジ保証(> = 1 -Alpha)を提供します。
CIFAR-100、ImagENET1K、およびModelNet40データセットの包括的な評価を通じて、さまざまな環境摂動の下でカメラとライダーモダリティ全体で優れた堅牢性を示します。
このフレームワークは、環境の重大度が増加するにつれて、高いカバレッジ(> 90.0%)を維持し、適応棄権(13.5%から63.4%+/- 0.5)を維持しながら、厳しい条件下で例外的な検出性能(AUC:0.993〜0.995)を達成します。
Lidarベースの認識では、私たちのアプローチは特に強力なパフォーマンスを示し、堅牢なカバレッジ(> 84.5%)を維持しながら、信頼できない予測を適切に控えています。
特に、このフレームワークは、検出性能(AUC:0.995 +/- 0.001)で、重い摂動の下で顕著な安定性を示しています。
私たちの統一されたアプローチは、理論的保証と実用的な展開ニーズの間のギャップを橋渡しし、実際の条件に挑戦して動作する安全性が批判的な自律システムに堅牢なソリューションを提供します。

要約(オリジナル)

Safety-critical perception systems require both reliable uncertainty quantification and principled abstention mechanisms to maintain safety under diverse operational conditions. We present a novel dual-threshold conformalization framework that provides statistically-guaranteed uncertainty estimates while enabling selective prediction in high-risk scenarios. Our approach uniquely combines a conformal threshold ensuring valid prediction sets with an abstention threshold optimized through ROC analysis, providing distribution-free coverage guarantees (>= 1 – alpha) while identifying unreliable predictions. Through comprehensive evaluation on CIFAR-100, ImageNet1K, and ModelNet40 datasets, we demonstrate superior robustness across camera and LiDAR modalities under varying environmental perturbations. The framework achieves exceptional detection performance (AUC: 0.993 to 0.995) under severe conditions while maintaining high coverage (>90.0%) and enabling adaptive abstention (13.5% to 63.4% +/- 0.5) as environmental severity increases. For LiDAR-based perception, our approach demonstrates particularly strong performance, maintaining robust coverage (>84.5%) while appropriately abstaining from unreliable predictions. Notably, the framework shows remarkable stability under heavy perturbations, with detection performance (AUC: 0.995 +/- 0.001) significantly outperforming existing methods across all modalities. Our unified approach bridges the gap between theoretical guarantees and practical deployment needs, offering a robust solution for safety-critical autonomous systems operating in challenging real-world conditions.

arxiv情報

著者 Divake Kumar,Nastaran Darabi,Sina Tayebati,Amit Ranjan Trivedi
発行日 2025-02-13 06:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception はコメントを受け付けていません

MTDP: Modulated Transformer Diffusion Policy Model

要約

行動クローン(BC)に基づくロボット操作に関する最近の研究は、大きな進歩を遂げました。
拡散モデルとBCを組み合わせることにより、拡散ポリシーが提案されており、ロボットが成功率の高い操作タスクを迅速に学習できるようになりました。
ただし、拡散ポリシーを大容量の変圧器と統合することは課題を提示します。従来のトランスアーキテクチャは、ガイド条件を効果的に統合するのに苦労し、トランスベースのモデルを使用する際の操作タスクのパフォーマンスが低下します。
このホワイトペーパーでは、変圧器の主要なアーキテクチャ設計を調査し、拡散ポリシーのための変調変圧器拡散ポリシー(MTDP)モデルを提案することにより、従来の変圧器アーキテクチャを改善します。
このモデルのコアは、私たちが提案した変調された注意モジュールです。これにより、ガイド条件がメイン入力とより効果的に統合され、生成モデルの出力品質が向上し、その結果、ロボットのタスクの成功率が向上します。
6つの実験タスクでは、MTDPは、特に成功率が12 \%増加するToolhang実験で、既存のトランスモデルアーキテクチャよりも優れていました。
調整された注意の一般性を検証するために、UNETアーキテクチャに適用して、6つの実験すべてにわたって既存のUNETアーキテクチャよりも高い成功率を達成した変調されたUNET拡散ポリシーモデル(MUDP)を構築しました。
拡散ポリシーでは、拡散確率モデル(DDPM)を拡散モデルとして使用します。
これに基づいて、拡散暗黙モデル(DDIM)を拡散モデルとして除去することを調査し、MTDP-IおよびMUDP-Iモデルを構築しました。

要約(オリジナル)

Recent research on robot manipulation based on Behavior Cloning (BC) has made significant progress. By combining diffusion models with BC, diffusion policiy has been proposed, enabling robots to quickly learn manipulation tasks with high success rates. However, integrating diffusion policy with high-capacity Transformer presents challenges, traditional Transformer architectures struggle to effectively integrate guiding conditions, resulting in poor performance in manipulation tasks when using Transformer-based models. In this paper, we investigate key architectural designs of Transformers and improve the traditional Transformer architecture by proposing the Modulated Transformer Diffusion Policy (MTDP) model for diffusion policy. The core of this model is the Modulated Attention module we proposed, which more effectively integrates the guiding conditions with the main input, improving the generative model’s output quality and, consequently, increasing the robot’s task success rate. In six experimental tasks, MTDP outperformed existing Transformer model architectures, particularly in the Toolhang experiment, where the success rate increased by 12\%. To verify the generality of Modulated Attention, we applied it to the UNet architecture to construct Modulated UNet Diffusion Policy model (MUDP), which also achieved higher success rates than existing UNet architectures across all six experiments. The Diffusion Policy uses Denoising Diffusion Probabilistic Models (DDPM) as the diffusion model. Building on this, we also explored Denoising Diffusion Implicit Models (DDIM) as the diffusion model, constructing the MTDP-I and MUDP-I model, which nearly doubled the generation speed while maintaining performance.

arxiv情報

著者 Qianhao Wang,Yinqian Sun,Enmeng Lu,Qian Zhang,Yi Zeng
発行日 2025-02-13 07:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MTDP: Modulated Transformer Diffusion Policy Model はコメントを受け付けていません

FLAF: Focal Line and Feature-constrained Active View Planning for Visual Teach and Repeat

要約

このホワイトペーパーでは、FLAF、焦点ライン、およびモバイルロボットの機能ベースの視覚ナビゲーションにおける故障回避を追跡するための機能制約のアクティブビュー計画方法を紹介します。
FLAFベースの視覚ナビゲーションは、機能ベースのVisual Teach and Repeat(VT \&R)フレームワークに基づいて構築されています。これは、毎日の自律ナビゲーション要件のかなりの部分をカバーするさまざまなパスをナビゲートするためにロボットを教えることにより、多くのロボットアプリケーションをサポートします。
ただし、人間が作成した環境でテクステルのない領域によって引き起こされる機能ベースの視覚的な同時ローカリゼーションとマッピング(VSLAM)の追跡障害は、VT \&rが現実世界で採用されることを制限しています。
この問題に対処するために、提案されたビュープランナーは機能ベースのビジュアルスラムシステムに統合され、追跡障害を回避するアクティブなVT \&rシステムを構築します。
私たちのシステムでは、パンチルトユニット(PTU)ベースのアクティブカメラがモバイルロボットに取り付けられています。
FLAFを使用して、アクティブなカメラベースのVSLAMは、ティーチングフェーズ中に動作して完全なパスマップを構築し、繰り返しフェーズで安定した局在化を維持します。
FLAFは、パス学習中のマッピング障害を回避し、学習した軌跡をたどりながら、ローカリゼーションに有益であるパス学習中のマッピング障害を回避するために、より多くのマップポイントにロボットをオレントします。
実際のシナリオでの実験は、FLAFが機能の同一性を考慮しない方法を上回ることを示しており、私たちのアクティブなVT \&rシステムは、低テクスチャ領域を効果的に処理することにより、複雑な環境でうまく機能することを示しています。

要約(オリジナル)

This paper presents FLAF, a focal line and feature-constrained active view planning method for tracking failure avoidance in feature-based visual navigation of mobile robots. Our FLAF-based visual navigation is built upon a feature-based visual teach and repeat (VT\&R) framework, which supports many robotic applications by teaching a robot to navigate on various paths that cover a significant portion of daily autonomous navigation requirements. However, tracking failure in feature-based visual simultaneous localization and mapping (VSLAM) caused by textureless regions in human-made environments is still limiting VT\&R to be adopted in the real world. To address this problem, the proposed view planner is integrated into a feature-based visual SLAM system to build up an active VT\&R system that avoids tracking failure. In our system, a pan-tilt unit (PTU)-based active camera is mounted on the mobile robot. Using FLAF, the active camera-based VSLAM operates during the teaching phase to construct a complete path map and in the repeat phase to maintain stable localization. FLAF orients the robot toward more map points to avoid mapping failures during path learning and toward more feature-identifiable map points beneficial for localization while following the learned trajectory. Experiments in real scenarios demonstrate that FLAF outperforms the methods that do not consider feature-identifiability, and our active VT\&R system performs well in complex environments by effectively dealing with low-texture regions.

arxiv情報

著者 Changfei Fu,Weinan Chen,Hong Zhang
発行日 2025-02-13 08:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FLAF: Focal Line and Feature-constrained Active View Planning for Visual Teach and Repeat はコメントを受け付けていません

Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following

要約

効果的なタスク表現は、さまざまな基本タスクを学習した後、エージェントが構成要素ステップの表現を一緒に構成するだけで複数のステップで構成される複合タスクを実行できるように、構成性を促進する必要があります。
これは概念的にシンプルで魅力的ですが、この種の構成性を可能にする表現を自動的に学習する方法は明確ではありません。
現在および将来の状態の表現を一時的なアライメント損失に関連付けることを学ぶことで、明示的なサブタスク計画または強化学習がない場合でも、組成の一般化を改善できることを示します。
多様なロボット操作タスクとシミュレーションにおけるアプローチを評価し、言語画像または目標画像で指定されたタスクの大幅な改善を示します。

要約(オリジナル)

Effective task representations should facilitate compositionality, such that after learning a variety of basic tasks, an agent can perform compound tasks consisting of multiple steps simply by composing the representations of the constituent steps together. While this is conceptually simple and appealing, it is not clear how to automatically learn representations that enable this sort of compositionality. We show that learning to associate the representations of current and future states with a temporal alignment loss can improve compositional generalization, even in the absence of any explicit subtask planning or reinforcement learning. We evaluate our approach across diverse robotic manipulation tasks as well as in simulation, showing substantial improvements for tasks specified with either language or goal images.

arxiv情報

著者 Vivek Myers,Bill Chunyuan Zheng,Anca Dragan,Kuan Fang,Sergey Levine
発行日 2025-02-13 08:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following はコメントを受け付けていません

Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls

要約

ツールを装備する能力はかつて人間の知性に排他的であると考えられていましたが、現在、カラスのような他の多くの動物がこの能力を持っていることが知られています。
しかし、ロボットシステムはまだ生物学的器用さの一致には至らない。
このホワイトペーパーでは、非摂食ツールベースの操作タスクに大規模な言語モデル(LLM)、ツールアフォーダンス、およびオブジェクト操作可能性の使用を調査します。
私たちの新しい方法は、シーン情報と自然言語の指示に基づいてLLMを活用して、ツールオブジェクト操作の象徴的なタスク計画を可能にします。
このアプローチにより、システムは人間の言語文を一連の実行可能な動き関数に変換できます。
視覚的なフィードバックから派生した新しいツールアフォーダンスモデルを使用して、新しいマネーブリビリティ駆動型コントローラーを開発しました。
このコントローラーは、限られた領域内であっても、ステッピングインクリメンタルアプローチを使用して、ロボットのツール利用および操作アクションを導くのに役立ちます。
提案された方法論は、さまざまな操作シナリオの下でその有効性を証明するために実験で評価されます。

要約(オリジナル)

The ability to wield tools was once considered exclusive to human intelligence, but it’s now known that many other animals, like crows, possess this capability. Yet, robotic systems still fall short of matching biological dexterity. In this paper, we investigate the use of Large Language Models (LLMs), tool affordances, and object manoeuvrability for non-prehensile tool-based manipulation tasks. Our novel method leverages LLMs based on scene information and natural language instructions to enable symbolic task planning for tool-object manipulation. This approach allows the system to convert the human language sentence into a sequence of feasible motion functions. We have developed a novel manoeuvrability-driven controller using a new tool affordance model derived from visual feedback. This controller helps guide the robot’s tool utilization and manipulation actions, even within confined areas, using a stepping incremental approach. The proposed methodology is evaluated with experiments to prove its effectiveness under various manipulation scenarios.

arxiv情報

著者 Hoi-Yin Lee,Peng Zhou,Anqing Duan,Wanyu Ma,Chenguang Yang,David Navarro-Alarcon
発行日 2025-02-13 09:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls はコメントを受け付けていません

Real-Time Operator Takeover for Visuomotor Diffusion Policy Training

要約

リアルタイムオペレーターテイクオーバー(RTOT)パラダイムを紹介し、オペレーターがライブ視覚運動拡散ポリシーをシームレスに制御し、システムを望ましい状態に戻すか、特定のデモを強化できるようにします。
マハロノビス距離を使用して、望ましくない状態を自動的に識別する新しい洞察を提示します。
オペレーターがシステムに介入してリダイレクトされると、コントロールはシームレスにポリシーに戻り、さらに介入が必要になるまで生成アクションを再開します。
ターゲットを絞ったテイクオーバーデモを組み込むと、同等の数の、しかしより長い初期デモンストレーションだけでトレーニングと比較して、ポリシーのパフォーマンスが大幅に向上することを実証します。
マハラノビス距離を使用して分散状態を検出することの詳細な分析を提供し、実行中の重大な障害点を特定するための有用性を示しています。
初期およびテイクオーバーデモンストレーションのビデオやすべてのライススクープ実験を含むサポート資料は、プロジェクトWebサイトhttps://operator-takeover.github.io/で入手できます。

要約(オリジナル)

We present a Real-Time Operator Takeover (RTOT) paradigm enabling operators to seamlessly take control of a live visuomotor diffusion policy, guiding the system back into desirable states or reinforcing specific demonstrations. We present new insights in using the Mahalonobis distance to automatically identify undesirable states. Once the operator has intervened and redirected the system, the control is seamlessly returned to the policy, which resumes generating actions until further intervention is required. We demonstrate that incorporating the targeted takeover demonstrations significantly improves policy performance compared to training solely with an equivalent number of, but longer, initial demonstrations. We provide an in-depth analysis of using the Mahalanobis distance to detect out-of-distribution states, illustrating its utility for identifying critical failure points during execution. Supporting materials, including videos of initial and takeover demonstrations and all rice scooping experiments, are available on the project website: https://operator-takeover.github.io/

arxiv情報

著者 Nils Ingelhag,Jesper Munkeby,Michael C. Welle,Marco Moletta,Danica Kragic
発行日 2025-02-13 09:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Real-Time Operator Takeover for Visuomotor Diffusion Policy Training はコメントを受け付けていません

LLM-Driven Augmented Reality Puppeteer: Controller-Free Voice-Commanded Robot Teleoperation

要約

ロボット工学と拡張現実(AR)の統合は、使いやすさ、直感性、およびアクセシビリティを改善することにより、人間とロボットの相互作用(HRI)を前進させるための変革的な機会を提供します。
この作業では、コントローラーフリーのLLM駆動型音声コマンドARパペテリングシステムを紹介し、ユーザーが仮想の対応物をリアルタイムで操作することによりロボットをテレホ操作できるようにします。
自然言語処理(NLP)とARテクノロジーを活用することにより、メタクエスト3を使用してプロトタイプ化されたシステムは、物理的なコントローラーの必要性を排除し、直接ロボット操作に関連する潜在的な安全リスクを最小限に抑えながら、使いやすさを高めます。
予備的なユーザーデモンストレーションは、システムの機能を正常に検証し、より安全で直感的で没入型のロボット制御の可能性を実証しました。

要約(オリジナル)

The integration of robotics and augmented reality (AR) presents transformative opportunities for advancing human-robot interaction (HRI) by improving usability, intuitiveness, and accessibility. This work introduces a controller-free, LLM-driven voice-commanded AR puppeteering system, enabling users to teleoperate a robot by manipulating its virtual counterpart in real time. By leveraging natural language processing (NLP) and AR technologies, our system — prototyped using Meta Quest 3 — eliminates the need for physical controllers, enhancing ease of use while minimizing potential safety risks associated with direct robot operation. A preliminary user demonstration successfully validated the system’s functionality, demonstrating its potential for safer, more intuitive, and immersive robotic control.

arxiv情報

著者 Yuchong Zhang,Bastian Orthmann,Michael C. Welle,Jonne Van Haastregt,Danica Kragic
発行日 2025-02-13 10:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | LLM-Driven Augmented Reality Puppeteer: Controller-Free Voice-Commanded Robot Teleoperation はコメントを受け付けていません

Federated Data-Driven Kalman Filtering for State Estimation

要約

このペーパーでは、自動運転車の非常に正確なローカリゼーションのために、共同トレーニングまたは連合学習パラダイムに基づいた新しいローカリゼーションフレームワークを提案します。
より具体的には、従来の拡張されたカルマンフィルタリングの基礎となるシステムの不確実性を推定することを目的とした再発性ニューラルネットワークであるKalmannetの標準的なアプローチに基づいて、FedkalMannetへの適応とコビンの概念によってそれを再定式化することを目的としています。
後者は、グローバルサーバー集約操作を通じて、車両の位置と速度測定からなるローカルトレーニングデータセットを使用して、車両のグループ(またはクライアント)によって分散された方法でトレーニングされています。
FedKalManNetは、関連するシステムの不確実性マトリックス(つまり、Kalman Gain)を推定することにより、各車両によってそれ自体をローカライズするために使用されます。
私たちの目的は、リアルタイムの制約の下での測定交換とセンサー融合のための豊富なV2X通信リソースを必要とする、自律運転における国家推定、共同意思決定のための共同トレーニングの利点を実際に実証することです。
Carla Autonomous Driving Simulatorで実施された広範な実験および評価研究は、リアルタイムのV2X通信を必要とせずに車両をローカライズする際に、最先端の共同意思決定アプローチよりもFedKalManNetの優れたパフォーマンスを強調しています。

要約(オリジナル)

This paper proposes a novel localization framework based on collaborative training or federated learning paradigm, for highly accurate localization of autonomous vehicles. More specifically, we build on the standard approach of KalmanNet, a recurrent neural network aiming to estimate the underlying system uncertainty of traditional Extended Kalman Filtering, and reformulate it by the adapt-then-combine concept to FedKalmanNet. The latter is trained in a distributed manner by a group of vehicles (or clients), with local training datasets consisting of vehicular location and velocity measurements, through a global server aggregation operation. The FedKalmanNet is then used by each vehicle to localize itself, by estimating the associated system uncertainty matrices (i.e, Kalman gain). Our aim is to actually demonstrate the benefits of collaborative training for state estimation in autonomous driving, over collaborative decision-making which requires rich V2X communication resources for measurement exchange and sensor fusion under real-time constraints. An extensive experimental and evaluation study conducted in CARLA autonomous driving simulator highlights the superior performance of FedKalmanNet over state-of-the-art collaborative decision-making approaches, in localizing vehicles without the need of real-time V2X communication.

arxiv情報

著者 Nikos Piperigkos,Alexandros Gkillas,Christos Anagnostopoulos,Aris S. Lalos
発行日 2025-02-13 10:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Federated Data-Driven Kalman Filtering for State Estimation はコメントを受け付けていません