A Navigation Framework Utilizing Vision-Language Models

要約

Vision-and-Language Navigation(VLN)は、具体化されたAIで複雑な課題を提示し、エージェントが自然言語の指示を解釈し、視覚的に豊かでなじみのない環境をナビゲートすることを要求します。
クリップやフラミンゴなどの大規模な視覚言語モデル(LVLMS)の最近の進歩により、マルチモーダル理解が大幅に改善されましたが、計算コストとリアルタイムの展開に関連する新しい課題を導入しました。
このプロジェクトでは、アクションプランニングからビジョン言語の理解を隔離するモジュール式のプラグアンドプレイナビゲーションフレームワークを提案します。
凍結視覚言語モデルであるQWEN2.5-VL-7B-Instructを軽量計画ロジックと統合することにより、広範なモデル微調整なしで柔軟で高速で適応性のあるナビゲーションを実現することを目指しています。
当社のフレームワークは、迅速なエンジニアリング、構造化された履歴管理、およびナビゲーションステップ全体の意思決定の継続性を高めるための2フレームの視覚入力戦略を活用します。
MatterPort3DデータセットとHabitat-LABシミュレーション環境を使用して、VLN-CE設定内のルーム間ベンチマークでシステムを評価します。
私たちの最初の結果は、厳格な評価設定の下で目に見えない環境への一般化の課題を明らかにしていますが、モジュール式アプローチは、スケーラブルで効率的なナビゲーションシステムの基礎を築き、環境プライアーの強化とマルチモーダル入力統合の拡大による将来の改善のための有望な方向を強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) presents a complex challenge in embodied AI, requiring agents to interpret natural language instructions and navigate through visually rich, unfamiliar environments. Recent advances in large vision-language models (LVLMs), such as CLIP and Flamingo, have significantly improved multimodal understanding but introduced new challenges related to computational cost and real-time deployment. In this project, we propose a modular, plug-and-play navigation framework that decouples vision-language understanding from action planning. By integrating a frozen vision-language model, Qwen2.5-VL-7B-Instruct, with lightweight planning logic, we aim to achieve flexible, fast, and adaptable navigation without extensive model fine-tuning. Our framework leverages prompt engineering, structured history management, and a two-frame visual input strategy to enhance decision-making continuity across navigation steps. We evaluate our system on the Room-to-Room benchmark within the VLN-CE setting using the Matterport3D dataset and Habitat-Lab simulation environment. Although our initial results reveal challenges in generalizing to unseen environments under strict evaluation settings, our modular approach lays a foundation for scalable and efficient navigation systems, highlighting promising directions for future improvement through enhanced environmental priors and expanded multimodal input integration.

arxiv情報

著者 Yicheng Duan,Kaiyu tang
発行日 2025-06-11 20:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Navigation Framework Utilizing Vision-Language Models はコメントを受け付けていません

Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion

要約

ヒューマノイドロボットが単一の再発ポリシー内で立っている、歩行、ランニング、スムーズな移行を実行できるようにする統一された歩行条件の強化学習フレームワークを紹介します。
コンパクトな報酬ルーティングメカニズムは、1ホットの歩行IDに基づいて歩行固有の目的を動的にアクティブにし、報酬の干渉を軽減し、安定したマルチゲート学習をサポートします。
人間に触発された報酬用語は、モーションキャプチャデータを必要とせずに、ストレート膝のスタンスや調整された腕足スイングなどの生体力学的に自然な動きを促進します。
構造化されたカリキュラムは、歩行の複雑さを徐々に導入し、複数のフェーズでコマンドスペースを拡張します。
シミュレーションでは、このポリシーは、堅牢なスタンディング、ウォーキング、ランニング、および歩行の移行を成功裏に達成します。
本物のUnitree G1 Humanoidでは、立っている、歩く、歩き回る移行を検証し、安定した協調的な移動を実証します。
この作業は、多様なモードと環境にわたる多用途で自然主義的なヒューマノイド制御に対するスケーラブルで参照のないソリューションを提供します。

要約(オリジナル)

We present a unified gait-conditioned reinforcement learning framework that enables humanoid robots to perform standing, walking, running, and smooth transitions within a single recurrent policy. A compact reward routing mechanism dynamically activates gait-specific objectives based on a one-hot gait ID, mitigating reward interference and supporting stable multi-gait learning. Human-inspired reward terms promote biomechanically natural motions, such as straight-knee stance and coordinated arm-leg swing, without requiring motion capture data. A structured curriculum progressively introduces gait complexity and expands command space over multiple phases. In simulation, the policy successfully achieves robust standing, walking, running, and gait transitions. On the real Unitree G1 humanoid, we validate standing, walking, and walk-to-stand transitions, demonstrating stable and coordinated locomotion. This work provides a scalable, reference-free solution toward versatile and naturalistic humanoid control across diverse modes and environments.

arxiv情報

著者 Tianhu Peng,Lingfan Bao,Chengxu Zhou
発行日 2025-06-11 21:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion はコメントを受け付けていません

A Unified Framework for Probabilistic Dynamic-, Trajectory- and Vision-based Virtual Fixtures

要約

確率的仮想備品(VFS)により、学習または知覚された不確実性に基づいて、タスクの各フェーズに最も適した触覚フィードバックの適応選択を可能にします。
たとえば、人間をループに維持することは、高い精度を確保するために、特定のタスクフェーズの部分的な自動化を確保するために不可欠なままです。
手動の備品、半自動化された備品(人間の取り扱いの正確なタスクを備えた)、および完全な自律性をシームレスに切り替える確率的VFの統一されたフレームワークを提示します。
粗いガイダンス用の新しい確率的動的システムベースのVFを導入し、ロボットが人間のオペレーターをループに保ちながら、特定のタスクフェーズを自律的に完了できるようにします。
正確なガイダンスを必要とするタスクについては、自動化を備えた確率的位置ベースの軌跡備品を、シームレスな人間の相互作用、幾何学的認識と最適なインピーダンスゲインを可能にします。
非常に正確なガイダンスを必要とする手動タスクについては、同じジオメトリ認識とインピーダンスの動作を備えた視覚サーボフィクスチャーも拡張します。
さまざまなロボットでアプローチを実験的に検証し、複数の操作モードとプログラミングフィクスチャの容易さを紹介します。

要約(オリジナル)

Probabilistic Virtual Fixtures (VFs) enable the adaptive selection of the most suitable haptic feedback for each phase of a task, based on learned or perceived uncertainty. While keeping the human in the loop remains essential, for instance, to ensure high precision, partial automation of certain task phases is critical for productivity. We present a unified framework for probabilistic VFs that seamlessly switches between manual fixtures, semi-automated fixtures (with the human handling precise tasks), and full autonomy. We introduce a novel probabilistic Dynamical System-based VF for coarse guidance, enabling the robot to autonomously complete certain task phases while keeping the human operator in the loop. For tasks requiring precise guidance, we extend probabilistic position-based trajectory fixtures with automation allowing for seamless human interaction as well as geometry-awareness and optimal impedance gains. For manual tasks requiring very precise guidance, we also extend visual servoing fixtures with the same geometry-awareness and impedance behaviour. We validate our approach experimentally on different robots, showcasing multiple operation modes and the ease of programming fixtures.

arxiv情報

著者 Maximilian Mühlbauer,Freek Stulp,Sylvain Calinon,Alin Albu-Schäffer,João Silvério
発行日 2025-06-11 23:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Unified Framework for Probabilistic Dynamic-, Trajectory- and Vision-based Virtual Fixtures はコメントを受け付けていません

Innovative Adaptive Imaged Based Visual Servoing Control of 6 DoFs Industrial Robot Manipulators

要約

画像ベースの視覚サーボ(IBVS)メソッドは、特にポーズ(位置と方向)アライメントで、多くのアプリケーションでよく開発および使用されています。
ただし、ほとんどの研究論文は、視野内で3Dポイント機能を検出できる場合、制御ソリューションの開発に焦点を当てています。
この作業は、YouLAパラメーター化法を使用して、革新的なFeedforward-Feedback Adaptive Control Algorithm構造を提案しています。
設計された機能推定ループは、ポイント機能が視野の外側にあるときに安定した高速モーション制御を保証します。
3Dポイントの特徴が視野内を移動すると、IBVSフィードバックループは、制御期間の終わりにポーズの精度を保持します。
また、操作の全範囲でシステムを安定させるために、フィードバックループで適応コントローラーが開発されています。
非線形カメラおよびロボットマニピュレーターモデルは線形化され、適応アルゴリズムによってオンラインで分離されます。
次に、適応コントローラーは、現在の線形化ポイントで評価された線形化モデルに基づいて計算されます。
提案されたソリューションは、さまざまな産業用ロボットシステムで堅牢で実装が簡単です。
提案されたコントローラーの有効性と堅牢なパフォーマンスを検証するために、シミュレーションでさまざまなシナリオが使用されています。

要約(オリジナル)

Image-based visual servoing (IBVS) methods have been well developed and used in many applications, especially in pose (position and orientation) alignment. However, most research papers focused on developing control solutions when 3D point features can be detected inside the field of view. This work proposes an innovative feedforward-feedback adaptive control algorithm structure with the Youla Parameterization method. A designed feature estimation loop ensures stable and fast motion control when point features are outside the field of view. As 3D point features move inside the field of view, the IBVS feedback loop preserves the precision of the pose at the end of the control period. Also, an adaptive controller is developed in the feedback loop to stabilize the system in the entire range of operations. The nonlinear camera and robot manipulator model is linearized and decoupled online by an adaptive algorithm. The adaptive controller is then computed based on the linearized model evaluated at current linearized point. The proposed solution is robust and easy to implement in different industrial robotic systems. Various scenarios are used in simulations to validate the effectiveness and robust performance of the proposed controller.

arxiv情報

著者 Rongfei Li,Francis Assadian
発行日 2025-06-11 23:47:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 93C85, cs.RO, cs.SY, eess.SY | Innovative Adaptive Imaged Based Visual Servoing Control of 6 DoFs Industrial Robot Manipulators はコメントを受け付けていません

A Novel Feedforward Youla Parameterization Method for Avoiding Local Minima in Stereo Image Based Visual Servoing Control

要約

ロボットナビゲーションと操作では、環境に対するカメラのポーズを正確に決定することが、効果的なタスク実行に不可欠です。
このホワイトペーパーでは、この問題が視点-3ポイント(P3P)の定式化に対応することを体系的に証明します。ここでは、正確に3つの既知の3Dポイントと、対応する2D画像投影を使用して、ステレオカメラのポーズを推定します。
画像ベースのビジュアルサーボ(IBV)制御では、ステレオカメラの6度(DOF)がシーン内の9つの観測された2D機能と整列する必要があるため、システムは過剰に決定されます。
利用可能なDOFよりも多くの制約が課される場合、カメラはサーボ中に目的の構成から遠く離れた場所に閉じ込められる可能性があるため、グローバルな安定性を保証することはできません。
この問題に対処するために、校正されたステレオカメラを正確に配置するための新しい制御戦略を提案します。
当社のアプローチでは、FeedForwardコントローラーをYouLAパラメーター化ベースのフィードバックコントローラーと統合し、堅牢なサーボパフォーマンスを確保します。
シミュレーションを通じて、当社の方法が局所的な最小値を効果的に回避し、カメラが望ましいポーズに正確かつ効率的に到達できるようにすることを実証します。

要約(オリジナル)

In robot navigation and manipulation, accurately determining the camera’s pose relative to the environment is crucial for effective task execution. In this paper, we systematically prove that this problem corresponds to the Perspective-3-Point (P3P) formulation, where exactly three known 3D points and their corresponding 2D image projections are used to estimate the pose of a stereo camera. In image-based visual servoing (IBVS) control, the system becomes overdetermined, as the 6 degrees of freedom (DoF) of the stereo camera must align with 9 observed 2D features in the scene. When more constraints are imposed than available DoFs, global stability cannot be guaranteed, as the camera may become trapped in a local minimum far from the desired configuration during servoing. To address this issue, we propose a novel control strategy for accurately positioning a calibrated stereo camera. Our approach integrates a feedforward controller with a Youla parameterization-based feedback controller, ensuring robust servoing performance. Through simulations, we demonstrate that our method effectively avoids local minima and enables the camera to reach the desired pose accurately and efficiently.

arxiv情報

著者 Rongfei Li,Francis Assadian
発行日 2025-06-12 00:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 93C85, cs.RO, cs.SY, eess.SY | A Novel Feedforward Youla Parameterization Method for Avoiding Local Minima in Stereo Image Based Visual Servoing Control はコメントを受け付けていません

Learning Safe Control via On-the-Fly Bandit Exploration

要約

高レベルのモデルの不確実性の下での安全要件を備えた制御タスクはますます一般的になっています。
機械学習技術は、通常、モデルエラーバウンドを活用して堅牢な制約ベースの安全フィルターを指定することにより、このようなタスクに対処するために頻繁に使用されます。
ただし、学習されたモデルの不確実性が非常に高い場合、対応するフィルターは潜在的に無効であるため、制御入力は安全フィルターによって課される制約を満たしていません。
ほとんどの作品は、何らかの形の安全なバックアップコントローラーを想定することでこの問題に対処しますが、ガウスプロセスBanditタイプのアルゴリズムを使用してその場で追加のデータを収集することで、私たちの問題に取り組みます。
制御バリア関数と学習モデルを組み合わせて、実行可能な場合は安全性を保証する堅牢な証明書を指定します。
実行可能性が発生するたびに、コントロールバリア機能を活用して探索を導き、収集されたデータが閉ループシステムの安全性に貢献するようにします。
この方法で安全フィルターと探索を組み合わせることにより、バックアップコントローラーを必要とせずに、ゼロ平均事前のダイナミクスモデルを可能にする設定で安全を実現することが証明されます。
私たちの知る限り、これを達成するのは最初の安全な学習ベースの制御方法です。

要約(オリジナル)

Control tasks with safety requirements under high levels of model uncertainty are increasingly common. Machine learning techniques are frequently used to address such tasks, typically by leveraging model error bounds to specify robust constraint-based safety filters. However, if the learned model uncertainty is very high, the corresponding filters are potentially invalid, meaning no control input satisfies the constraints imposed by the safety filter. While most works address this issue by assuming some form of safe backup controller, ours tackles it by collecting additional data on the fly using a Gaussian process bandit-type algorithm. We combine a control barrier function with a learned model to specify a robust certificate that ensures safety if feasible. Whenever infeasibility occurs, we leverage the control barrier function to guide exploration, ensuring the collected data contributes toward the closed-loop system safety. By combining a safety filter with exploration in this manner, our method provably achieves safety in a setting that allows for a zero-mean prior dynamics model, without requiring a backup controller. To the best of our knowledge, it is the first safe learning-based control method that achieves this.

arxiv情報

著者 Alexandre Capone,Ryan Cosner,Aaaron Ames,Sandra Hirche
発行日 2025-06-12 01:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Learning Safe Control via On-the-Fly Bandit Exploration はコメントを受け付けていません

Multi-Timescale Dynamics Model Bayesian Optimization for Plasma Stabilization in Tokamaks

要約

機械学習アルゴリズムは、多くの場合、複雑な現実世界システムを制御するのに苦労しています。
核融合の場合、ダイナミクスが複雑であり、データが貧弱であり、ハードウェアは障害の影響を受け、実験は実験の持続時間を超えてダイナミクスに影響を与えるため、これらの課題は悪化します。
強化学習、監視された学習、ベイズの最適化などの既存のツールは、これらの課題のいくつかに対処していますが、包括的なソリューションを提供しません。
これらの制限を克服するために、高周波データ駆動型のダイナミクスモデルを低周波ガウスプロセスと統合するマルチスケールのベイジアン最適化アプローチを提示します。
実験間のガウスプロセスを更新することにより、この方法は新しいデータに迅速に適応し、信頼性の低い動的モデルの予測を改善します。
DIII-D核融合プラントの不安定性を引き裂くことにより、アプローチを検証します。
履歴データのオフラインテストは、この方法がいくつかのベースラインを大幅に上回ることを示しています。
不安定性が発生しやすい高性能プラズマシナリオの下で実施されたDIII-Dトカマックでのライブ実験の結果は、50%の成功率を示し、過去の結果に対する117%の改善を示しています。

要約(オリジナル)

Machine learning algorithms often struggle to control complex real-world systems. In the case of nuclear fusion, these challenges are exacerbated, as the dynamics are notoriously complex, data is poor, hardware is subject to failures, and experiments often affect dynamics beyond the experiment’s duration. Existing tools like reinforcement learning, supervised learning, and Bayesian optimization address some of these challenges but fail to provide a comprehensive solution. To overcome these limitations, we present a multi-scale Bayesian optimization approach that integrates a high-frequency data-driven dynamics model with a low-frequency Gaussian process. By updating the Gaussian process between experiments, the method rapidly adapts to new data, refining the predictions of the less reliable dynamical model. We validate our approach by controlling tearing instabilities in the DIII-D nuclear fusion plant. Offline testing on historical data shows that our method significantly outperforms several baselines. Results on live experiments on the DIII-D tokamak, conducted under high-performance plasma scenarios prone to instabilities, shows a 50% success rate, marking a 117% improvement over historical outcomes.

arxiv情報

著者 Rohit Sonker,Alexandre Capone,Andrew Rothstein,Hiro Josep Farre Kaga,Egemen Kolemen,Jeff Schneider
発行日 2025-06-12 01:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-Timescale Dynamics Model Bayesian Optimization for Plasma Stabilization in Tokamaks はコメントを受け付けていません

Nocturnal eye inspired liquid to gas phase change soft actuator with Laser-Induced-Graphene: enhanced environmental light harvesting and photothermal conversion

要約

ロボットシステムのモビリティは、電源と配線によって制約されています。
空気圧アクチュエーターは供給につながれたままですが、光エネルギーを利用した新しいアクチュエーターを開発しました。
夜行性の動物の目に触発されて、私たちはシリコン層の内面にレーザー誘導グラフェン(LIG)を組み込んだ二重層のソフトアクチュエータを設計しました。
この設計により、シリコーンの透明性と柔軟性が維持され、光熱変換の強化により、従来のアクチュエーターと比較して54%の応答時間が54%速くなります。

要約(オリジナル)

Robotic systems’ mobility is constrained by power sources and wiring. While pneumatic actuators remain tethered to air supplies, we developed a new actuator utilizing light energy. Inspired by nocturnal animals’ eyes, we designed a bilayer soft actuator incorporating Laser-Induced Graphene (LIG) on the inner surface of a silicone layer. This design maintains silicone’s transparency and flexibility while achieving 54% faster response time compared to conventional actuators through enhanced photothermal conversion.

arxiv情報

著者 Maina Sogabe,Youhyun Kim,Hiroki Miyazako,Kenji Kawashima
発行日 2025-06-12 02:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Nocturnal eye inspired liquid to gas phase change soft actuator with Laser-Induced-Graphene: enhanced environmental light harvesting and photothermal conversion はコメントを受け付けていません

Help or Hindrance: Understanding the Impact of Robot Communication in Action Teams

要約

人間とロボットの相互作用(HRI)フィールドは、ロボットがチームと対話できるようにすることの重要性を認識しています。
人間のチームは、時間に敏感な環境でのコラボレーションを成功させるための効果的なコミュニケーションに依存しています。
ロボットは、リアルタイムの支援を通じてチームの調整を強化する役割を果たすことができます。
ヒューマンロボットチームの研究において大きな進歩にもかかわらず、ロボットが時間感受性環境でマルチモーダル相互作用の手がかりを使用してアクションチームと効果的に通信する方法には、重要なギャップが残っています。
この研究では、実験的なラブ内研究におけるこの知識のギャップに対処し、アクションチームでのマルチモーダルロボットコミュニケーションがロボットのワークロードと人間の認識にどのように影響するかを調査します。
ロボットクラッシュカート(RCC)が口頭および非言語的な手がかりを提供する医療トレーニングシナリオでチームのコラボレーションを探索し、ユーザーが反復タスクを実行し、物資を検索することを忘れないようにします。
私たちの調査結果は、オブジェクト検索タスクの口頭の手がかりとタスクリマインダーの視覚的な手がかりがチームのワークロードを減らし、フィードバックのないロボットよりも効果的に使用の容易さと知覚される有用性を高めることを示しています。
私たちの仕事は、HRI分野でのマルチモーダルインタラクション研究に貢献し、病院、検索と救助、製造アプリケーションなどの時間に敏感な環境で共同ロボットを統合するためのベストプラクティスを理解するためのより多くの人間のロボットチーム研究の研究の必要性を強調しています。

要約(オリジナル)

The human-robot interaction (HRI) field has recognized the importance of enabling robots to interact with teams. Human teams rely on effective communication for successful collaboration in time-sensitive environments. Robots can play a role in enhancing team coordination through real-time assistance. Despite significant progress in human-robot teaming research, there remains an essential gap in how robots can effectively communicate with action teams using multimodal interaction cues in time-sensitive environments. This study addresses this knowledge gap in an experimental in-lab study to investigate how multimodal robot communication in action teams affects workload and human perception of robots. We explore team collaboration in a medical training scenario where a robotic crash cart (RCC) provides verbal and non-verbal cues to help users remember to perform iterative tasks and search for supplies. Our findings show that verbal cues for object search tasks and visual cues for task reminders reduce team workload and increase perceived ease of use and perceived usefulness more effectively than a robot with no feedback. Our work contributes to multimodal interaction research in the HRI field, highlighting the need for more human-robot teaming research to understand best practices for integrating collaborative robots in time-sensitive environments such as in hospitals, search and rescue, and manufacturing applications.

arxiv情報

著者 Tauhid Tanjim,Jonathan St. George,Kevin Ching,Angelique Taylor
発行日 2025-06-12 02:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Help or Hindrance: Understanding the Impact of Robot Communication in Action Teams はコメントを受け付けていません

Using Language and Road Manuals to Inform Map Reconstruction for Autonomous Driving

要約

レーントポロジーの予測は、安全で信頼性の高い自律的なナビゲーションの重要な要素です。
道路環境を正確に理解することは、このタスクを支援します。
この情報は、道路構造と道路機能を捉える道路名を反映する設計コードを通じて、自然言語でエンコードされた慣習に従うことが多いことを観察します。
この情報は、OSMマップから構造化された道路メタデータと道路デザインマニュアルからの道路中心線のエンコーディングを組み合わせて組み合わせることにより、地図上のオンラインレーントポロジー予測モデルであるSmerfに軽量で拡張します。
2つの地理的複雑な交差シナリオでの方法を評価します。
私たちの方法では、レーンとトラフィックの両方の要素検出とその関連の改善が示されています。
モデルのパフォーマンスを包括的に評価するために、4つのトポロジ対応メトリックを使用して結果を報告します。
これらの結果は、多様なトポロジや条件に一般化し、拡大するアプローチの能力を示しています。

要約(オリジナル)

Lane-topology prediction is a critical component of safe and reliable autonomous navigation. An accurate understanding of the road environment aids this task. We observe that this information often follows conventions encoded in natural language, through design codes that reflect the road structure and road names that capture the road functionality. We augment this information in a lightweight manner to SMERF, a map-prior-based online lane-topology prediction model, by combining structured road metadata from OSM maps and lane-width priors from Road design manuals with the road centerline encodings. We evaluate our method on two geo-diverse complex intersection scenarios. Our method shows improvement in both lane and traffic element detection and their association. We report results using four topology-aware metrics to comprehensively assess the model performance. These results demonstrate the ability of our approach to generalize and scale to diverse topologies and conditions.

arxiv情報

著者 Akshar Tumu,Henrik I. Christensen,Marcell Vazquez-Chanlatte,Chikao Tsuchiya,Dhaval Bhanderi
発行日 2025-06-12 03:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Using Language and Road Manuals to Inform Map Reconstruction for Autonomous Driving はコメントを受け付けていません