Frequency Dynamic Convolution for Dense Image Prediction

要約

動的畳み込み(DY-CONV)は、注意メカニズムと組み合わせた複数の並列重量を介して適応体重選択を可能にすることにより有望なパフォーマンスを示していますが、これらの重量の周波数応答は高い類似性を示し、高いパラメーターコストをもたらしますが、適応性は限られています。
この作業では、Frequency Dynamic Convolution(FDCONV)を導入します。これは、Forierドメインで固定パラメーター予算を学習することでこれらの制限を軽減する新しいアプローチです。
FDCONVは、この予算を分離フーリエインデックスで周波数ベースのグループに分割し、パラメーターコストを増やすことなく周波数ダイバーウェイトの構築を可能にします。
適応性をさらに向上させるために、カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案します。
KSMは、各フィルターの周波数応答を空間レベルで動的に調整し、FBMは周波数ドメインの異なる周波数帯域に重みを分解し、ローカルコンテンツに基づいて動的に変調します。
オブジェクトの検出、セグメンテーション、および分類に関する広範な実験により、FDCONVの有効性が検証されます。
ResNet-50に適用されると、FDCONVは +3.6mパラメーターの適度な増加で優れたパフォーマンスを達成し、パラメーター予算の大幅な増加を必要とする以前の方法(Condconv +90m、kw +76.5mなど)を上回ることを実証します。
さらに、FDCONVは、Convnext、Swin-Transformerなど、さまざまなアーキテクチャにシームレスに統合され、最新のビジョンタスクに柔軟で効率的なソリューションを提供します。
このコードは、https://github.com/linwei-chen/fdconvで公開されています。

要約(オリジナル)

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

arxiv情報

著者 Linwei Chen,Lin Gu,Liang Li,Chenggang Yan,Ying Fu
発行日 2025-03-25 03:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models

要約

ロボットナビゲーションはさまざまなドメインで重要ですが、従来の方法は効率と障害物の回避に焦点を当てており、多くの場合、共有空間で人間の行動を見落としています。
サービスロボットの台頭により、社会的に認識しているナビゲーションが顕著になりました。
ただし、既存のアプローチは、主に歩行者の動きまたは発行アラートを予測し、真の人間とロボットの相互作用を欠いています。
社会的に認識されたナビゲーションのための新しいフレームワークである大規模な言語モデル(HSAC-LLM)を使用して、ハイブリッドソフトアクタークライティックを紹介します。
深い補強学習を大規模な言語モデルと統合することにより、HSAC-LLMは双方向の自然言語相互作用を可能にし、連続的および離散ナビゲーションアクションの両方を予測します。
潜在的な衝突が発生すると、ロボットは歩行者と積極的に通信して回避戦略を決定します。
2Dシミュレーション、ガゼボ、および実際の環境での実験は、HSAC-LLMが相互作用、ナビゲーション、および障害物回避において最先端のDRLメソッドを上回ることを示しています。
このパラダイムは、動的な設定で効果的な人間とロボットの相互作用を進めます。
ビデオはhttps://hsacllm.github.io/で入手できます。

要約(オリジナル)

Robot navigation is crucial across various domains, yet traditional methods focus on efficiency and obstacle avoidance, often overlooking human behavior in shared spaces. With the rise of service robots, socially aware navigation has gained prominence. However, existing approaches primarily predict pedestrian movements or issue alerts, lacking true human-robot interaction. We introduce Hybrid Soft Actor-Critic with Large Language Model (HSAC-LLM), a novel framework for socially aware navigation. By integrating deep reinforcement learning with large language models, HSAC-LLM enables bidirectional natural language interactions, predicting both continuous and discrete navigation actions. When potential collisions arise, the robot proactively communicates with pedestrians to determine avoidance strategies. Experiments in 2D simulation, Gazebo, and real-world environments demonstrate that HSAC-LLM outperforms state-of-the-art DRL methods in interaction, navigation, and obstacle avoidance. This paradigm advances effective human-robot interactions in dynamic settings. Videos are available at https://hsacllm.github.io/.

arxiv情報

著者 Congcong Wen,Yifan Liu,Geeta Chandra Raju Bethala,Shuaihang Yuan,Hao Huang,Yu Hao,Mengyu Wang,Yu-Shen Liu,Anthony Tzes,Yi Fang
発行日 2025-03-23 19:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Joint State-Parameter Observer-Based Robust Control of a UAV for Heavy Load Transportation

要約

このペーパーでは、オクトコプター無人航空機(OUAV)の軌跡追跡のためのジョイントステートパラメーターオブザーバーベースのコントローラーを提案し、重い荷重を不明な質量とサイズの輸送のために提案します。
システムのダイナミクスへの負荷パラメーターの効果を効果的に考慮して、硬く接続された負荷を備えたOUAVの多体動的モデルが取得されます。
堅牢な非線形Wインフェンツ制御戦略は、OUAVの最適な軌道追跡のために設計されており、共同推定されていないカルマンフィルターによって提供される状態および負荷パラメーターを使用して、
提案された戦略の有効性は、数値結果によって裏付けられています。

要約(オリジナル)

This paper proposes a joint state-parameter observer-based controller for trajectory tracking of an octocopter unmanned aerial vehicle (OUAV), for transportation of a heavy load with unknown mass and size. The multi-body dynamic model of the OUAV with a rigidly attached load is obtained, effectively considering the effects of the load parameters into the dynamics of the system. A robust nonlinear W-infinity control strategy is designed for optimal trajectory tracking of the OUAV, with information of the states and load parameters provided by a joint estimation unscented Kalman filter. The effectiveness of the proposed strategy is corroborated by numerical results.

arxiv情報

著者 Brenner S. Rego,Daniel N. Cardoso,Marco. H. Terra,Guilherme V. Raffo
発行日 2025-03-23 19:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Extended Visibility of Autonomous Vehicles via Optimized Cooperative Perception under Imperfect Communication

要約

自動運転車(AVS)は、安全にナビゲートするために個々の認識システムに依存しています。
ただし、これらのシステムは、有害な気象条件、複雑な道路幾何学、および密集した交通シナリオにおける重大な課題に直面しています。
協同的認識(CP)は、複数の車両で共有カメラフィードとセンサーの読み取りを共同で処理することにより、AVSの認識品質を拡張するための有望なアプローチとして浮上しています。
この作業は、不完全な通信の下で車両の選択とネットワークリソースの利用を最適化するために設計された新しいCPフレームワークを提示します。
最適化されたCP形成は、ヘルパー車両の空間位置、視覚範囲、モーションブラー、利用可能な通信予算などの重要な要因を考慮しています。
さらに、当社のリソース最適化モジュールは、LTEや5G NR-V2Xなどの最新の車両通信システムの現実的なモデルを考慮して、エゴ車とヘルパー車両間のデータフロー効率を最大化するために電力レベルを調整しながら通信チャネルを割り当てます。
Carlaシミュレーターによって生成された合成データを使用して、挑戦的なシナリオでの歩行者検出に関する広範な実験を通じて、アプローチを検証します。
結果は、私たちの方法が、検出精度が約10%増加する個々のAVの知覚品質を大幅に改善することを示しています。
この実質的な利益は、複雑な状況でのAVの安全性とパフォーマンスを向上させるためのCPの解き放たれた可能性を明らかにします。

要約(オリジナル)

Autonomous Vehicles (AVs) rely on individual perception systems to navigate safely. However, these systems face significant challenges in adverse weather conditions, complex road geometries, and dense traffic scenarios. Cooperative Perception (CP) has emerged as a promising approach to extending the perception quality of AVs by jointly processing shared camera feeds and sensor readings across multiple vehicles. This work presents a novel CP framework designed to optimize vehicle selection and networking resource utilization under imperfect communications. Our optimized CP formation considers critical factors such as the helper vehicles’ spatial position, visual range, motion blur, and available communication budgets. Furthermore, our resource optimization module allocates communication channels while adjusting power levels to maximize data flow efficiency between the ego and helper vehicles, considering realistic models of modern vehicular communication systems, such as LTE and 5G NR-V2X. We validate our approach through extensive experiments on pedestrian detection in challenging scenarios, using synthetic data generated by the CARLA simulator. The results demonstrate that our method significantly improves upon the perception quality of individual AVs with about 10% gain in detection accuracy. This substantial gain uncovers the unleashed potential of CP to enhance AV safety and performance in complex situations.

arxiv情報

著者 Ahmad Sarlak,Rahul Amin,Abolfazl Razi
発行日 2025-03-23 20:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Distributed Bayesian Estimation in Sensor Networks: Consensus on Marginal Densities

要約

この論文では、センサーネットワークの分散ベイジアン推定アルゴリズムを設計および分析することを目指しています。
私たちが対処する課題は、(i)連続変数にわたって確率分布の機能空間に分散された証明された修正アルゴリズムを導き出し、(ii)これらの結果を活用して、個々のエージェントによって観察された変数のサブセットに制限された新しい分布推定器を取得することです。
これは、協力的なローカリゼーションやフェデレーションラーニングなどのアプリケーションに関連しています。ここでは、任意のエージェントで収集されたデータは、関心のあるすべての変数のサブセットに依存します。
集中、分布、および限界分散設定のエージェントの非線形尤度からのデータを使用して、ベイジアン密度推定アルゴリズムを提示します。
分散型推定目標を設定した後、各エージェントでの最適なPDFSセットへの収束をほぼ測定することを証明します。
次に、各エージェントの関連する変数のみにわたって密度を推定するストレージ認識アルゴリズムでも同じことを証明します。
最後に、これらのアルゴリズムのガウスバージョンを提示し、Lidar Sensingに関連する非線形尤度モデルを処理するための変分推論を使用してマッピング問題に実装します。

要約(オリジナル)

In this paper, we aim to design and analyze distributed Bayesian estimation algorithms for sensor networks. The challenges we address are to (i) derive a distributed provably-correct algorithm in the functional space of probability distributions over continuous variables, and (ii) leverage these results to obtain new distributed estimators restricted to subsets of variables observed by individual agents. This relates to applications such as cooperative localization and federated learning, where the data collected at any agent depends on a subset of all variables of interest. We present Bayesian density estimation algorithms using data from non-linear likelihoods at agents in centralized, distributed, and marginal distributed settings. After setting up a distributed estimation objective, we prove almost-sure convergence to the optimal set of pdfs at each agent. Then, we prove the same for a storage-aware algorithm estimating densities only over relevant variables at each agent. Finally, we present a Gaussian version of these algorithms and implement it in a mapping problem using variational inference to handle non-linear likelihood models associated with LiDAR sensing.

arxiv情報

著者 Parth Paritosh,Nikolay Atanasov,Sonia Martinez
発行日 2025-03-23 20:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, eess.SP | コメントする

Decentralized Navigation of a Cable-Towed Load using Quadrupedal Robot Team via MARL

要約

この作業は、障害物を避けながら、散らかった構造化されていない環境を介してケーブル接続された負荷を協力して協調することが四角形ロボットのチームが協力することを可能にするという課題に対処します。
ケーブルを活用することで、マルチロボットシステムは、必要に応じてスラックを維持することにより、狭いスペースをナビゲートできます。
ただし、これにより、交互の緊張状態とスラック状態が交互に行われるため、ハイブリッドの物理的相互作用が導入され、エージェントの数が増加するにつれて指数関数的にスケーリングする計算の複雑さが導入されます。
これらの課題に取り組むために、負荷牽引タスクに固有のハイブリッド物理的相互作用を管理しながら、さまざまな数の四角形ロボットを動的に調整できるスケーラブルで分散型システムを開発しました。
このシステムの中核には、分散型調整のために設計された新しいマルチエージェント補強学習(MARL)ベースのプランナーがあります。
MARLベースのプランナーは、分散型実行(CTDE)フレームワークを備えた集中トレーニングを使用してトレーニングされ、各ロボットがローカル(エゴ)の観察のみを使用して自律的に意思決定を行うことができます。
学習を加速し、さまざまなチームサイズにわたって効果的なコラボレーションを確保するために、MARL向けにテーラードトレーニングカリキュラムを紹介します。
実験結果は、フレームワークの柔軟性とスケーラビリティを強調し、実際のシナリオで1〜4つのロボットを使用して展開が成功し、シミュレーションで最大12のロボットを実証します。
分散型プランナーは、チームのサイズに関係なく、一貫した推論時間を維持します。
さらに、提案されたシステムは、環境の摂動に対する堅牢性と、さまざまな負荷重みへの適応性を示しています。
この作業は、複雑で現実世界の環境で柔軟で効率的な多面的なロボットコラボレーションを達成するための一歩を踏み出すことを表しています。

要約(オリジナル)

This work addresses the challenge of enabling a team of quadrupedal robots to collaboratively tow a cable-connected load through cluttered and unstructured environments while avoiding obstacles. Leveraging cables allows the multi-robot system to navigate narrow spaces by maintaining slack when necessary. However, this introduces hybrid physical interactions due to alternating taut and slack states, with computational complexity that scales exponentially as the number of agents increases. To tackle these challenges, we developed a scalable and decentralized system capable of dynamically coordinating a variable number of quadrupedal robots while managing the hybrid physical interactions inherent in the load-towing task. At the core of this system is a novel multi-agent reinforcement learning (MARL)-based planner, designed for decentralized coordination. The MARL-based planner is trained using a centralized training with decentralized execution (CTDE) framework, enabling each robot to make decisions autonomously using only local (ego) observations. To accelerate learning and ensure effective collaboration across varying team sizes, we introduce a tailored training curriculum for MARL. Experimental results highlight the flexibility and scalability of the framework, demonstrating successful deployment with one to four robots in real-world scenarios and up to twelve robots in simulation. The decentralized planner maintains consistent inference times, regardless of the team size. Additionally, the proposed system demonstrates robustness to environment perturbations and adaptability to varying load weights. This work represents a step forward in achieving flexible and efficient multi-legged robotic collaboration in complex and real-world environments.

arxiv情報

著者 Wen-Tse Chen,Minh Nguyen,Zhongyu Li,Guo Ning Sue,Koushil Sreenath
発行日 2025-03-23 21:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

A Robot-Led Intervention for Emotion Regulation: From Expression to Reappraisal

要約

感情規制は、日常生活で感情を管理するための重要なスキルですが、これらのプロセスをサポートするための建設的でアクセス可能な方法を見つけることは、認知的要求のために依然として困難です。
この研究では、大学のホールや部門内の構造化された馴染みのある環境で実施された社会ロボットとの定期的な相互作用が、認知的再評価を通じて感情調節を効果的にサポートする方法を探ります。
21人の学生が大学のホールまたは部門で5セッションの研究に参加しました。そこでは、ロボットが構造化された会話を促進し、学生がロボットと共有した感情的に充電された状況を再解釈するよう奨励しました。
定量的および定性的な結果は、感情の自己規制の大幅な改善を示しており、参加者は感情の理解と制御をよりよく報告しています。
この介入は、建設的な感情調節の傾向の大幅な変化と、各セッション後の気分と感情に対するプラスの影響をもたらしました。
調査結果はまた、ロボットとの繰り返しの相互作用が、より長い音声開示、感情的な言語の使用の増加、顔の覚醒の高まりなど、より大きな感情的な表現力を促進することを示しています。
特に、表現力は、特に参加者がネガティブな経験を再解釈するように促された場合、再評価プロセスと再評価プロセスに合わせた構造化されたパターンに従いました。
定性的なフィードバックは、ロボットがどのように内省を促進し、感情を議論するための支持スペースを提供し、参加者が長年にわたる感情的課題に立ち向かうことを可能にすることを強調しました。
これらの発見は、身近な環境での感情調節を効果的に支援するロボットの可能性を示しており、感情的なサポートと認知ガイダンスの両方を提供します。

要約(オリジナル)

Emotion regulation is a crucial skill for managing emotions in everyday life, yet finding a constructive and accessible method to support these processes remains challenging due to their cognitive demands. In this study, we explore how regular interactions with a social robot, conducted in a structured yet familiar environment within university halls and departments, can provide effective support for emotion regulation through cognitive reappraisal. Twenty-one students participated in a five-session study at a university hall or department, where the robot facilitated structured conversations, encouraging the students to reinterpret emotionally charged situations that they shared with the robot. Quantitative and qualitative results indicate significant improvements in emotion self-regulation, with participants reporting better understanding and control of their emotions. The intervention led to significant changes in constructive emotion regulation tendencies and positive effects on mood and sentiment after each session. The findings also demonstrate that repeated interactions with the robot encouraged greater emotional expressiveness, including longer speech disclosures, increased use of affective language, and heightened facial arousal. Notably, expressiveness followed structured patterns aligned with the reappraisal process, with expression peaking during key reappraisal moments, particularly when participants were prompted to reinterpret negative experiences. The qualitative feedback further highlighted how the robot fostered introspection and provided a supportive space for discussing emotions, enabling participants to confront long-avoided emotional challenges. These findings demonstrate the potential of robots to effectively assist in emotion regulation in familiar environments, offering both emotional support and cognitive guidance.

arxiv情報

著者 Guy Laban,Julie Wang,Hatice Gunes
発行日 2025-03-23 23:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

要約

最近の作品は、マスクされた自動エンコーダー(MAE)を使用したエゴセントリックデータセットの視覚的な前脱出が、下流のロボットタスクの一般化を改善できることを示しています。
ただし、これらのアプローチは2D画像でのみ前提となりますが、多くのロボットアプリケーションでは3Dシーンの理解が必要です。
この作業では、3D-MVPを提案します。これは、マスクされた自動エンコーダーを使用した3Dマルチビュートレイニングの新しいアプローチです。
マルチビュートランスを使用して3Dシーンを理解し、グリッパーポーズアクションを予測するロボットビュートランス(RVT)を活用します。
RVTのマルチビュートランスを視覚エンコーダーとアクションデコーダーに分割し、OBJAVerseなどの大規模な3Dデータセットでマスクされた自動エンコードを使用して視覚エンコーダを前処理します。
一連の仮想ロボット操作タスクで3D-MVPを評価し、ベースライン上のパフォーマンスの向上を示します。
我々の結果は、3Dを認識している前orainingが、ビジョンベースのロボット操作ポリシーの一般化を改善するための有望なアプローチであることを示唆しています。
プロジェクトサイト:https://jasonqsy.github.io/3dmvp

要約(オリジナル)

Recent works have shown that visual pretraining on egocentric datasets using masked autoencoders (MAE) can improve generalization for downstream robotics tasks. However, these approaches pretrain only on 2D images, while many robotics applications require 3D scene understanding. In this work, we propose 3D-MVP, a novel approach for 3D Multi-View Pretraining using masked autoencoders. We leverage Robotic View Transformer (RVT), which uses a multi-view transformer to understand the 3D scene and predict gripper pose actions. We split RVT’s multi-view transformer into visual encoder and action decoder, and pretrain its visual encoder using masked autoencoding on large-scale 3D datasets such as Objaverse. We evaluate 3D-MVP on a suite of virtual robot manipulation tasks and demonstrate improved performance over baselines. Our results suggest that 3D-aware pretraining is a promising approach to improve generalization of vision-based robotic manipulation policies. Project site: https://jasonqsy.github.io/3DMVP

arxiv情報

著者 Shengyi Qian,Kaichun Mo,Valts Blukis,David F. Fouhey,Dieter Fox,Ankit Goyal
発行日 2025-03-24 00:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

GI-SLAM: Gaussian-Inertial SLAM

要約

3Dガウススプラッティング(3DG)は、最近、密集した同時局在とマッピング(SLAM)の幾何学と外観の強力な表現として浮上しました。
3Dガウスの迅速で微分可能なラスター化により、多くの3DGSスラムメソッドは、リアルタイムのレンダリングと加速トレーニングを達成します。
ただし、これらの方法は主に慣性データを見落としているため、魔女は慣性測定ユニット(IMU)から収集された重要な情報です。
この論文では、IMUが強化したカメラ追跡モジュールと、マッピングのための現実的な3Dガウスベースのシーン表現で構成される新しいガウス系型スラムシステムであるGi-Slamを紹介します。
私たちの方法では、3Dガウスのスプラットスラムを支える深い学習フレームワークにシームレスに統合するIMUの損失を導入し、カメラ追跡の精度、堅牢性、効率を効果的に向上させます。
さらに、当社のSLAMシステムは、IMU統合の有無にかかわらず、単眼、ステレオ、RGBDカメラなどの幅広いセンサー構成をサポートしています。
私たちの方法は、EurocおよびTUM-RGBDデータセットの既存の最先端のリアルタイム方法と比較して、競争力のあるパフォーマンスを実現します。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has recently emerged as a powerful representation of geometry and appearance for dense Simultaneous Localization and Mapping (SLAM). Through rapid, differentiable rasterization of 3D Gaussians, many 3DGS SLAM methods achieve near real-time rendering and accelerated training. However, these methods largely overlook inertial data, witch is a critical piece of information collected from the inertial measurement unit (IMU). In this paper, we present GI-SLAM, a novel gaussian-inertial SLAM system which consists of an IMU-enhanced camera tracking module and a realistic 3D Gaussian-based scene representation for mapping. Our method introduces an IMU loss that seamlessly integrates into the deep learning framework underpinning 3D Gaussian Splatting SLAM, effectively enhancing the accuracy, robustness and efficiency of camera tracking. Moreover, our SLAM system supports a wide range of sensor configurations, including monocular, stereo, and RGBD cameras, both with and without IMU integration. Our method achieves competitive performance compared with existing state-of-the-art real-time methods on the EuRoC and TUM-RGBD datasets.

arxiv情報

著者 Xulang Liu,Ning Tan
発行日 2025-03-24 01:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Learning Orientation Field for OSM-Guided Autonomous Navigation

要約

OpenStreetMap(OSM)は、公共のアクセシビリティ、メンテナンスコストの削減、より広範な地理的カバレッジにより、自律的なナビゲーションで最近人気を博しました。
ただし、既存の方法は、騒々しいOSMデータと不完全なセンサーの観察に苦労していることが多く、軌道計画の不正確さにつながります。
これらの課題は、交差点や閉塞に直面するなど、複雑な運転シナリオで特に顕著です。
これらの課題に対処するために、LIDARスキャンとOSMルートを統合してロボットナビゲーションの方向フィールド(ORFIELD)を学習するための堅牢で説明可能な2段階のフレームワークを提案します。
最初の段階では、騒々しいライダースキャンとOSMルートから共同で推論する地図上の各グリッドの方向を提供できる新しい表現であるOrfieldを紹介します。
堅牢なオーフィールドを生成するために、多用途の初期オーフィールドをエンコードして最適化されたオーフィールドを出力することにより、深いニューラルネットワークをトレーニングします。
Orfieldに基づいて、OSM誘導ロボットナビゲーションの2つの軌道プランナーを、それぞれField-RRT*とField-Bezierと呼ばれる2つの軌跡プランナーを、ランダムツリー(RRT)アルゴリズムとbezier曲線を迅速に調査するために改善することにより、軌道を推定することを提案します。
グローバル情報とローカル情報の両方をキャプチャするOrfieldの堅牢性のおかげで、Field-RRT*とField-Bezierは、挑戦的な状況でも正確で信頼できる軌跡を生成できます。
Semantickittiデータセットと独自のキャンパスデータセットでの実験を通じて、アプローチを検証します。
結果は、私たちの方法の有効性を示しており、複雑で騒々しい状態で優れたパフォーマンスを達成しています。
ネットワークトレーニングと現実世界の展開のコードは、https://github.com/imrl/orifieldで入手できます。

要約(オリジナル)

OpenStreetMap (OSM) has gained popularity recently in autonomous navigation due to its public accessibility, lower maintenance costs, and broader geographical coverage. However, existing methods often struggle with noisy OSM data and incomplete sensor observations, leading to inaccuracies in trajectory planning. These challenges are particularly evident in complex driving scenarios, such as at intersections or facing occlusions. To address these challenges, we propose a robust and explainable two-stage framework to learn an Orientation Field (OrField) for robot navigation by integrating LiDAR scans and OSM routes. In the first stage, we introduce the novel representation, OrField, which can provide orientations for each grid on the map, reasoning jointly from noisy LiDAR scans and OSM routes. To generate a robust OrField, we train a deep neural network by encoding a versatile initial OrField and output an optimized OrField. Based on OrField, we propose two trajectory planners for OSM-guided robot navigation, called Field-RRT* and Field-Bezier, respectively, in the second stage by improving the Rapidly Exploring Random Tree (RRT) algorithm and Bezier curve to estimate the trajectories. Thanks to the robustness of OrField which captures both global and local information, Field-RRT* and Field-Bezier can generate accurate and reliable trajectories even in challenging conditions. We validate our approach through experiments on the SemanticKITTI dataset and our own campus dataset. The results demonstrate the effectiveness of our method, achieving superior performance in complex and noisy conditions. Our code for network training and real-world deployment is available at https://github.com/IMRL/OriField.

arxiv情報

著者 Yuming Huang,Wei Gao,Zhiyuan Zhang,Maani Ghaffari,Dezhen Song,Cheng-Zhong Xu,Hui Kong
発行日 2025-03-24 01:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする