Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following

要約

効果的なタスク表現は、さまざまな基本タスクを学習した後、エージェントが構成要素ステップの表現を一緒に構成するだけで複数のステップで構成される複合タスクを実行できるように、構成性を促進する必要があります。
これは概念的にシンプルで魅力的ですが、この種の構成性を可能にする表現を自動的に学習する方法は明確ではありません。
現在および将来の状態の表現を一時的なアライメント損失に関連付けることを学ぶことで、明示的なサブタスク計画または強化学習がない場合でも、組成の一般化を改善できることを示します。
多様なロボット操作タスクとシミュレーションにおけるアプローチを評価し、言語画像または目標画像で指定されたタスクの大幅な改善を示します。

要約(オリジナル)

Effective task representations should facilitate compositionality, such that after learning a variety of basic tasks, an agent can perform compound tasks consisting of multiple steps simply by composing the representations of the constituent steps together. While this is conceptually simple and appealing, it is not clear how to automatically learn representations that enable this sort of compositionality. We show that learning to associate the representations of current and future states with a temporal alignment loss can improve compositional generalization, even in the absence of any explicit subtask planning or reinforcement learning. We evaluate our approach across diverse robotic manipulation tasks as well as in simulation, showing substantial improvements for tasks specified with either language or goal images.

arxiv情報

著者 Vivek Myers,Bill Chunyuan Zheng,Anca Dragan,Kuan Fang,Sergey Levine
発行日 2025-02-13 08:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following はコメントを受け付けていません

Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls

要約

ツールを装備する能力はかつて人間の知性に排他的であると考えられていましたが、現在、カラスのような他の多くの動物がこの能力を持っていることが知られています。
しかし、ロボットシステムはまだ生物学的器用さの一致には至らない。
このホワイトペーパーでは、非摂食ツールベースの操作タスクに大規模な言語モデル(LLM)、ツールアフォーダンス、およびオブジェクト操作可能性の使用を調査します。
私たちの新しい方法は、シーン情報と自然言語の指示に基づいてLLMを活用して、ツールオブジェクト操作の象徴的なタスク計画を可能にします。
このアプローチにより、システムは人間の言語文を一連の実行可能な動き関数に変換できます。
視覚的なフィードバックから派生した新しいツールアフォーダンスモデルを使用して、新しいマネーブリビリティ駆動型コントローラーを開発しました。
このコントローラーは、限られた領域内であっても、ステッピングインクリメンタルアプローチを使用して、ロボットのツール利用および操作アクションを導くのに役立ちます。
提案された方法論は、さまざまな操作シナリオの下でその有効性を証明するために実験で評価されます。

要約(オリジナル)

The ability to wield tools was once considered exclusive to human intelligence, but it’s now known that many other animals, like crows, possess this capability. Yet, robotic systems still fall short of matching biological dexterity. In this paper, we investigate the use of Large Language Models (LLMs), tool affordances, and object manoeuvrability for non-prehensile tool-based manipulation tasks. Our novel method leverages LLMs based on scene information and natural language instructions to enable symbolic task planning for tool-object manipulation. This approach allows the system to convert the human language sentence into a sequence of feasible motion functions. We have developed a novel manoeuvrability-driven controller using a new tool affordance model derived from visual feedback. This controller helps guide the robot’s tool utilization and manipulation actions, even within confined areas, using a stepping incremental approach. The proposed methodology is evaluated with experiments to prove its effectiveness under various manipulation scenarios.

arxiv情報

著者 Hoi-Yin Lee,Peng Zhou,Anqing Duan,Wanyu Ma,Chenguang Yang,David Navarro-Alarcon
発行日 2025-02-13 09:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls はコメントを受け付けていません

Real-Time Operator Takeover for Visuomotor Diffusion Policy Training

要約

リアルタイムオペレーターテイクオーバー(RTOT)パラダイムを紹介し、オペレーターがライブ視覚運動拡散ポリシーをシームレスに制御し、システムを望ましい状態に戻すか、特定のデモを強化できるようにします。
マハロノビス距離を使用して、望ましくない状態を自動的に識別する新しい洞察を提示します。
オペレーターがシステムに介入してリダイレクトされると、コントロールはシームレスにポリシーに戻り、さらに介入が必要になるまで生成アクションを再開します。
ターゲットを絞ったテイクオーバーデモを組み込むと、同等の数の、しかしより長い初期デモンストレーションだけでトレーニングと比較して、ポリシーのパフォーマンスが大幅に向上することを実証します。
マハラノビス距離を使用して分散状態を検出することの詳細な分析を提供し、実行中の重大な障害点を特定するための有用性を示しています。
初期およびテイクオーバーデモンストレーションのビデオやすべてのライススクープ実験を含むサポート資料は、プロジェクトWebサイトhttps://operator-takeover.github.io/で入手できます。

要約(オリジナル)

We present a Real-Time Operator Takeover (RTOT) paradigm enabling operators to seamlessly take control of a live visuomotor diffusion policy, guiding the system back into desirable states or reinforcing specific demonstrations. We present new insights in using the Mahalonobis distance to automatically identify undesirable states. Once the operator has intervened and redirected the system, the control is seamlessly returned to the policy, which resumes generating actions until further intervention is required. We demonstrate that incorporating the targeted takeover demonstrations significantly improves policy performance compared to training solely with an equivalent number of, but longer, initial demonstrations. We provide an in-depth analysis of using the Mahalanobis distance to detect out-of-distribution states, illustrating its utility for identifying critical failure points during execution. Supporting materials, including videos of initial and takeover demonstrations and all rice scooping experiments, are available on the project website: https://operator-takeover.github.io/

arxiv情報

著者 Nils Ingelhag,Jesper Munkeby,Michael C. Welle,Marco Moletta,Danica Kragic
発行日 2025-02-13 09:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Real-Time Operator Takeover for Visuomotor Diffusion Policy Training はコメントを受け付けていません

LLM-Driven Augmented Reality Puppeteer: Controller-Free Voice-Commanded Robot Teleoperation

要約

ロボット工学と拡張現実(AR)の統合は、使いやすさ、直感性、およびアクセシビリティを改善することにより、人間とロボットの相互作用(HRI)を前進させるための変革的な機会を提供します。
この作業では、コントローラーフリーのLLM駆動型音声コマンドARパペテリングシステムを紹介し、ユーザーが仮想の対応物をリアルタイムで操作することによりロボットをテレホ操作できるようにします。
自然言語処理(NLP)とARテクノロジーを活用することにより、メタクエスト3を使用してプロトタイプ化されたシステムは、物理的なコントローラーの必要性を排除し、直接ロボット操作に関連する潜在的な安全リスクを最小限に抑えながら、使いやすさを高めます。
予備的なユーザーデモンストレーションは、システムの機能を正常に検証し、より安全で直感的で没入型のロボット制御の可能性を実証しました。

要約(オリジナル)

The integration of robotics and augmented reality (AR) presents transformative opportunities for advancing human-robot interaction (HRI) by improving usability, intuitiveness, and accessibility. This work introduces a controller-free, LLM-driven voice-commanded AR puppeteering system, enabling users to teleoperate a robot by manipulating its virtual counterpart in real time. By leveraging natural language processing (NLP) and AR technologies, our system — prototyped using Meta Quest 3 — eliminates the need for physical controllers, enhancing ease of use while minimizing potential safety risks associated with direct robot operation. A preliminary user demonstration successfully validated the system’s functionality, demonstrating its potential for safer, more intuitive, and immersive robotic control.

arxiv情報

著者 Yuchong Zhang,Bastian Orthmann,Michael C. Welle,Jonne Van Haastregt,Danica Kragic
発行日 2025-02-13 10:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | LLM-Driven Augmented Reality Puppeteer: Controller-Free Voice-Commanded Robot Teleoperation はコメントを受け付けていません

Federated Data-Driven Kalman Filtering for State Estimation

要約

このペーパーでは、自動運転車の非常に正確なローカリゼーションのために、共同トレーニングまたは連合学習パラダイムに基づいた新しいローカリゼーションフレームワークを提案します。
より具体的には、従来の拡張されたカルマンフィルタリングの基礎となるシステムの不確実性を推定することを目的とした再発性ニューラルネットワークであるKalmannetの標準的なアプローチに基づいて、FedkalMannetへの適応とコビンの概念によってそれを再定式化することを目的としています。
後者は、グローバルサーバー集約操作を通じて、車両の位置と速度測定からなるローカルトレーニングデータセットを使用して、車両のグループ(またはクライアント)によって分散された方法でトレーニングされています。
FedKalManNetは、関連するシステムの不確実性マトリックス(つまり、Kalman Gain)を推定することにより、各車両によってそれ自体をローカライズするために使用されます。
私たちの目的は、リアルタイムの制約の下での測定交換とセンサー融合のための豊富なV2X通信リソースを必要とする、自律運転における国家推定、共同意思決定のための共同トレーニングの利点を実際に実証することです。
Carla Autonomous Driving Simulatorで実施された広範な実験および評価研究は、リアルタイムのV2X通信を必要とせずに車両をローカライズする際に、最先端の共同意思決定アプローチよりもFedKalManNetの優れたパフォーマンスを強調しています。

要約(オリジナル)

This paper proposes a novel localization framework based on collaborative training or federated learning paradigm, for highly accurate localization of autonomous vehicles. More specifically, we build on the standard approach of KalmanNet, a recurrent neural network aiming to estimate the underlying system uncertainty of traditional Extended Kalman Filtering, and reformulate it by the adapt-then-combine concept to FedKalmanNet. The latter is trained in a distributed manner by a group of vehicles (or clients), with local training datasets consisting of vehicular location and velocity measurements, through a global server aggregation operation. The FedKalmanNet is then used by each vehicle to localize itself, by estimating the associated system uncertainty matrices (i.e, Kalman gain). Our aim is to actually demonstrate the benefits of collaborative training for state estimation in autonomous driving, over collaborative decision-making which requires rich V2X communication resources for measurement exchange and sensor fusion under real-time constraints. An extensive experimental and evaluation study conducted in CARLA autonomous driving simulator highlights the superior performance of FedKalmanNet over state-of-the-art collaborative decision-making approaches, in localizing vehicles without the need of real-time V2X communication.

arxiv情報

著者 Nikos Piperigkos,Alexandros Gkillas,Christos Anagnostopoulos,Aris S. Lalos
発行日 2025-02-13 10:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Federated Data-Driven Kalman Filtering for State Estimation はコメントを受け付けていません

LimSim Series: An Autonomous Driving Simulation Platform for Validation and Enhancement

要約

閉ループシミュレーション環境は、自律運転システム(ADS)の検証と強化において重要な役割を果たします。
ただし、シミュレーションの精度と期間のバランスをとること、機能性と実用性の調整、包括的な評価メカニズムの確立など、特定の課題は重要な注意を払う必要があります。
このペーパーでは、これらの課題に対処し、ADSの迅速な展開と効率的な反復をサポートするために設計された包括的なシミュレーションプラットフォームであるLimsimシリーズを導入します。
LIMSIMシリーズは、ロードネットワークからのマルチタイプ情報を統合し、バックグラウンド車両の人間のような意思決定と計画アルゴリズムを採用し、関心分野(AOI)の概念を導入して計算リソースを最適化します。
このプラットフォームは、さまざまなベースラインアルゴリズムとユーザーフレンドリーなインターフェイスを提供し、複数の技術パイプラインの柔軟な検証を促進します。
さらに、Limsimシリーズには多次元評価メトリックが組み込まれており、システムパフォーマンスに関する徹底的な洞察を提供するため、研究者はさらなる改善のために問題を迅速に特定できます。
実験は、Limsimシリーズがモジュラー、エンドツーエンド、およびVLMベースの知識駆動型システムと互換性があることを示しています。
さまざまなシナリオでパフォーマンスを評価することにより、広告の反復と更新を支援できます。
Limsimシリーズのコードは、https://github.com/pjlab-adg/limsimでリリースされます。

要約(オリジナル)

Closed-loop simulation environments play a crucial role in the validation and enhancement of autonomous driving systems (ADS). However, certain challenges warrant significant attention, including balancing simulation accuracy with duration, reconciling functionality with practicality, and establishing comprehensive evaluation mechanisms. This paper addresses these challenges by introducing the LimSim Series, a comprehensive simulation platform designed to support the rapid deployment and efficient iteration of ADS. The LimSim Series integrates multi-type information from road networks, employs human-like decision-making and planning algorithms for background vehicles, and introduces the concept of the Area of Interest (AoI) to optimize computational resources. The platform offers a variety of baseline algorithms and user-friendly interfaces, facilitating flexible validation of multiple technical pipelines. Additionally, the LimSim Series incorporates multi-dimensional evaluation metrics, delivering thorough insights into system performance, thus enabling researchers to promptly identify issues for further improvements. Experiments demonstrate that the LimSim Series is compatible with modular, end-to-end, and VLM-based knowledge-driven systems. It can assist in the iteration and updating of ADS by evaluating performance across various scenarios. The code of the LimSim Series is released at: https://github.com/PJLab-ADG/LimSim.

arxiv情報

著者 Daocheng Fu,Naiting Zhong,Xu Han,Pinlong Cai,Licheng Wen,Song Mao,Botian Shi,Yu Qiao
発行日 2025-02-13 10:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LimSim Series: An Autonomous Driving Simulation Platform for Validation and Enhancement はコメントを受け付けていません

Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification

要約

予期しない状況の自動リアルタイム認識は、特にサポートされていない予測不可能なシナリオで、自律車の安全性に重要な役割を果たします。
このペーパーでは、システムレベルのシミュレーションベースのテスト中に、安全性が批判的な不正行為の予測テストのために、ディープラーニングドメインからのさまざまなベイズの不確実性定量化方法を評価します。
具体的には、高い不確実性スコアは、故障を引き起こす運転行動と安全性を区別するために使用できるサポートされていないランタイム条件を示しているという直感に続いて、車両の実行時に不確実性スコアを計算します。
私たちの研究では、2つのベイジアンの不確実性定量化方法、つまりMc-Dropoutと深いアンサンブルに関連する有効性と計算オーバーヘッドの評価を実施しました。
全体として、突然変異テストを介して導入された分散療法と安全でない条件の両方を含むUdacityシミュレーターからの3つのベンチマークでは、両方の方法が、2つの状態を前払いし、数秒前に早期警告を提供する多数の方法を検出し、2つの状態を上回ることに成功しました。
有効性と効率性の観点から、自動エンコーダーと注意マップに基づくOF-The Artの不正行為予測方法。
特に、ディープアンサンブルは、誤報なしでほとんどの不正行為を検出し、比較的少数のモデルを使用しても、リアルタイム検出のために計算可能なモデルを使用してもそうしました。
我々の調査結果は、不確実性の定量化方法を組み込むことは、深いニューラルネットワークベースの自律車両にフェイルセーフメカニズムを構築するための実行可能なアプローチであることを示唆しています。

要約(オリジナル)

The automated real-time recognition of unexpected situations plays a crucial role in the safety of autonomous vehicles, especially in unsupported and unpredictable scenarios. This paper evaluates different Bayesian uncertainty quantification methods from the deep learning domain for the anticipatory testing of safety-critical misbehaviours during system-level simulation-based testing. Specifically, we compute uncertainty scores as the vehicle executes, following the intuition that high uncertainty scores are indicative of unsupported runtime conditions that can be used to distinguish safe from failure-inducing driving behaviors. In our study, we conducted an evaluation of the effectiveness and computational overhead associated with two Bayesian uncertainty quantification methods, namely MC- Dropout and Deep Ensembles, for misbehaviour avoidance. Overall, for three benchmarks from the Udacity simulator comprising both out-of-distribution and unsafe conditions introduced via mutation testing, both methods successfully detected a high number of out-of-bounds episodes providing early warnings several seconds in advance, outperforming two state-of-the-art misbehaviour prediction methods based on autoencoders and attention maps in terms of effectiveness and efficiency. Notably, Deep Ensembles detected most misbehaviours without any false alarms and did so even when employing a relatively small number of models, making them computationally feasible for real-time detection. Our findings suggest that incorporating uncertainty quantification methods is a viable approach for building fail-safe mechanisms in deep neural network-based autonomous vehicles.

arxiv情報

著者 Ruben Grewal,Paolo Tonella,Andrea Stocco
発行日 2025-02-13 11:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SE | Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification はコメントを受け付けていません

A Machine Learning Approach to Sensor Substitution for Non-Prehensile Manipulation

要約

モバイルマニピュレーターは、複雑な環境でますます展開されており、周囲との相互作用を認識して相互作用させるために多様なセンサーが必要です。
ただし、すべてのロボットに可能なあらゆるセンサーを装備することは、コストと物理的な制約のために非現実的であることがよくあります。
異なるセンサー機能を備えたロボットが同様のタスクをコラボレーションまたは実行する必要がある場合、重大な課題が生じます。
たとえば、高解像度の触覚皮膚を装備したモバイルマニピュレーターが、プッシュなどの非摂食操作タスクに熟練しているシナリオを考えてみましょう。
このロボットをそのような触覚センシングを欠くロボットに交換または拡張する必要がある場合、学習した操作ポリシーは適用できなくなります。
このペーパーでは、非摂食操作におけるセンサー置換の問題に対処します。
限られたセンサーセット(LIDARやRGB-Dカメラなど)を備えたロボットを可能にする新しい機械学習ベースのフレームワークを提案して、以前はより豊富なセンサースイート(触覚スキンなど)に依存していたタスクを効果的に実行できます。
私たちのアプローチは、利用可能なセンサーデータと、置換センサーによって提供される情報との間のマッピングを学び、欠落している感覚入力を効果的に合成します。
具体的には、モバイルマニピュレーターを使用して非摂取性プッシュのタスクに触覚皮膚データを置き換えるモデルをトレーニングすることにより、フレームワークの有効性を実証します。
LidarまたはRGB-Dのみを装備したマニピュレーターは、トレーニング後、直接的な触覚フィードバックを利用してモバイルベースのパフォーマンスを同等にし、時にはさらに良くプッシュすることができることを示します。

要約(オリジナル)

Mobile manipulators are increasingly deployed in complex environments, requiring diverse sensors to perceive and interact with their surroundings. However, equipping every robot with every possible sensor is often impractical due to cost and physical constraints. A critical challenge arises when robots with differing sensor capabilities need to collaborate or perform similar tasks. For example, consider a scenario where a mobile manipulator equipped with high-resolution tactile skin is skilled at non-prehensile manipulation tasks like pushing. If this robot needs to be replaced or augmented by a robot lacking such tactile sensing, the learned manipulation policies become inapplicable. This paper addresses the problem of sensor substitution in non-prehensile manipulation. We propose a novel machine learning-based framework that enables a robot with a limited sensor set (e.g., LiDAR or RGB-D camera) to effectively perform tasks previously reliant on a richer sensor suite (e.g., tactile skin). Our approach learns a mapping between the available sensor data and the information provided by the substituted sensor, effectively synthesizing the missing sensory input. Specifically, we demonstrate the efficacy of our framework by training a model to substitute tactile skin data for the task of non-prehensile pushing using a mobile manipulator. We show that a manipulator equipped only with LiDAR or RGB-D can, after training, achieve comparable and sometimes even better pushing performance to a mobile base utilizing direct tactile feedback.

arxiv情報

著者 Idil Ozdamar,Doganay Sirintuna,Arash Ajoudani
発行日 2025-02-13 11:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Machine Learning Approach to Sensor Substitution for Non-Prehensile Manipulation はコメントを受け付けていません

LCSim: A Large-Scale Controllable Traffic Simulator

要約

都市輸送の急速な成長と自律運転の継続的な進歩により、自律運転アルゴリズムの堅牢なベンチマークの需要が浮上し、多様な車両駆動スタイルを備えた大規模な都市交通シナリオの正確なモデリングを求めています。
SUMOなどの従来のトラフィックシミュレーターは、多くの場合、手作りのシナリオとルールベースのモデルに依存します。このモデルでは、車両のアクションが速度調整とレーンの変更に限定されているため、現実的な交通環境を作成することが困難です。
近年、現実世界のトラフィックシナリオデータセットが自律運転の進歩とともに開発され、データ駆動型シミュレーターと学習ベースのシミュレーション方法の台頭が促進されています。
ただし、現在のデータ駆動型シミュレーターは、依存しているデータセット内のトラフィックシナリオと運転スタイルの複製に制限されていることが多く、現実世界で観察されるマルチスタイルの運転行動をモデル化する能力を制限します。
大規模な制御可能なトラフィックシミュレーターである\ textit {lcsim}を提案します。
まず、トラフィックシナリオの統一データ形式を定義し、複数のデータソースからそれらを構築するツールを提供し、大規模なトラフィックシミュレーションを可能にします。
さらに、拡散ベースの車両モーションプランナーをLCSIMに統合して、現実的で多様な車両モデリングを促進します。
特定のガイダンスの下で、これにより、さまざまな運転スタイルを反映するトラフィックシナリオの作成が可能になります。
これらの機能を活用するLCSIMは、大規模で現実的で制御可能な仮想トラフィック環境を提供できます。
コードとデモはhttps://tsinghua-fib-lab.github.io/lcsimで入手できます。

要約(オリジナル)

With the rapid growth of urban transportation and the continuous progress in autonomous driving, a demand for robust benchmarking autonomous driving algorithms has emerged, calling for accurate modeling of large-scale urban traffic scenarios with diverse vehicle driving styles. Traditional traffic simulators, such as SUMO, often depend on hand-crafted scenarios and rule-based models, where vehicle actions are limited to speed adjustment and lane changes, making it difficult for them to create realistic traffic environments. In recent years, real-world traffic scenario datasets have been developed alongside advancements in autonomous driving, facilitating the rise of data-driven simulators and learning-based simulation methods. However, current data-driven simulators are often restricted to replicating the traffic scenarios and driving styles within the datasets they rely on, limiting their ability to model multi-style driving behaviors observed in the real world. We propose \textit{LCSim}, a large-scale controllable traffic simulator. First, we define a unified data format for traffic scenarios and provide tools to construct them from multiple data sources, enabling large-scale traffic simulation. Furthermore, we integrate a diffusion-based vehicle motion planner into LCSim to facilitate realistic and diverse vehicle modeling. Under specific guidance, this allows for the creation of traffic scenarios that reflect various driving styles. Leveraging these features, LCSim can provide large-scale, realistic, and controllable virtual traffic environments. Codes and demos are available at https://tsinghua-fib-lab.github.io/LCSim.

arxiv情報

著者 Yuheng Zhang,Tianjian Ouyang,Fudan Yu,Lei Qiao,Wei Wu,Jingtao Ding,Jian Yuan,Yong Li
発行日 2025-02-13 11:24:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LCSim: A Large-Scale Controllable Traffic Simulator はコメントを受け付けていません

OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics

要約

Smart Logisticsでの効率的なラストマイル配信の需要の増加は、運用効率を高め、コストを削減する上での自律的なロボットの役割を強調しています。
高精度マップに依存する従来のナビゲーション方法はリソース集約型ですが、学習ベースのアプローチは多くの場合、実際のシナリオで一般化に苦労しています。
これらの課題に対処するために、この作業は、基礎モデルとスケーラブルな屋外ナビゲーションのための古典的なアルゴリズムを組み合わせたOpenStreetMapが強化したオープンエアセマンティックナビゲーション(OPEN)システムを提案します。
このシステムは、柔軟なマップ表現に既製のOpenStreetMap(OSM)を使用して、広範な事前マッピングの取り組みの必要性を排除します。
また、大規模な言語モデル(LLM)を採用して、グローバルローカリゼーション、マップ更新、およびハウス番号認識のために配信指示とビジョン言語モデル(VLM)を理解します。
ラストマイル配信の評価に不十分な既存のベンチマークの制限を補うために、この作業は、自律配信システムが直面する現実世界の課題を反映した、住宅地での屋外ナビゲーションのために特別に設計された新しいベンチマークを導入します。
シミュレートされた現実世界環境での広範な実験は、ナビゲーションの効率と信頼性の向上における提案されたシステムの有効性を示しています。
さらなる研究を促進するために、私たちのコードとベンチマークは公開されています。

要約(オリジナル)

The increasing demand for efficient last-mile delivery in smart logistics underscores the role of autonomous robots in enhancing operational efficiency and reducing costs. Traditional navigation methods, which depend on high-precision maps, are resource-intensive, while learning-based approaches often struggle with generalization in real-world scenarios. To address these challenges, this work proposes the Openstreetmap-enhanced oPen-air sEmantic Navigation (OPEN) system that combines foundation models with classic algorithms for scalable outdoor navigation. The system uses off-the-shelf OpenStreetMap (OSM) for flexible map representation, thereby eliminating the need for extensive pre-mapping efforts. It also employs Large Language Models (LLMs) to comprehend delivery instructions and Vision-Language Models (VLMs) for global localization, map updates, and house number recognition. To compensate the limitations of existing benchmarks that are inadequate for assessing last-mile delivery, this work introduces a new benchmark specifically designed for outdoor navigation in residential areas, reflecting the real-world challenges faced by autonomous delivery systems. Extensive experiments in simulated and real-world environments demonstrate the proposed system’s efficacy in enhancing navigation efficiency and reliability. To facilitate further research, our code and benchmark are publicly available.

arxiv情報

著者 Junhui Wang,Dongjie Huo,Zehui Xu,Yongliang Shi,Yimin Yan,Yuanxin Wang,Chao Gao,Yan Qiao,Guyue Zhou
発行日 2025-02-13 11:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics はコメントを受け付けていません