VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation

要約

ビジョン言語アクションモデル(VLA)は、エンドツーエンドのデザインと驚くべきパフォーマンスのために、ロボット操作でますます人気が高まっています。
ただし、既存のVLAは、テキストベースの指示のみをサポートするビジョン言語モデル(VLM)に大きく依存しており、人間とロボットの相互作用のより自然な音声モダリティを無視しています。
従来の音声統合方法には通常、個別の音声認識システムが含まれ、モデルを複雑にし、エラーの伝播を導入します。
さらに、転写手順では、ボイスプリントなど、生のスピーチで非セマンチックな情報が失われます。これは、ロボットがカスタマイズされたタスクを正常に完了するために重要です。
上記の課題を克服するために、音声認識をロボットポリシーモデルに直接統合する新しいエンドツーエンドのVLAであるVLAを提案します。
VLASを使用すると、ロボットは内側の音声テキストアラインメントを介して音声コマンドを理解し、対応するアクションを生成してタスクを満たすことができます。
また、2つの新しいデータセット、SQAとCSIを提示して、テキスト、画像、音声、およびロボットアクションを介したマルチモーダル相互作用の能力をVLAに強化する3段階のチューニングプロセスをサポートします。
さらに一歩進んで、音声検索された生成(RAG)パラダイムは、モデルが個人固有の知識を必要とするタスクを効果的に処理できるように設計されています。
私たちの広範な実験は、VLAが多様な音声コマンドを使用してロボット操作タスクを効果的に達成できることを示しており、シームレスでカスタマイズされたインタラクションエクスペリエンスを提供します。

要約(オリジナル)

Vision-language-action models (VLAs) have become increasingly popular in robot manipulation for their end-to-end design and remarkable performance. However, existing VLAs rely heavily on vision-language models (VLMs) that only support text-based instructions, neglecting the more natural speech modality for human-robot interaction. Traditional speech integration methods usually involves a separate speech recognition system, which complicates the model and introduces error propagation. Moreover, the transcription procedure would lose non-semantic information in the raw speech, such as voiceprint, which may be crucial for robots to successfully complete customized tasks. To overcome above challenges, we propose VLAS, a novel end-to-end VLA that integrates speech recognition directly into the robot policy model. VLAS allows the robot to understand spoken commands through inner speech-text alignment and produces corresponding actions to fulfill the task. We also present two new datasets, SQA and CSI, to support a three-stage tuning process for speech instructions, which empowers VLAS with the ability of multimodal interaction across text, image, speech, and robot actions. Taking a step further, a voice retrieval-augmented generation (RAG) paradigm is designed to enable our model to effectively handle tasks that require individual-specific knowledge. Our extensive experiments show that VLAS can effectively accomplish robot manipulation tasks with diverse speech commands, offering a seamless and customized interaction experience.

arxiv情報

著者 Wei Zhao,Pengxiang Ding,Min Zhang,Zhefei Gong,Shuanghao Bai,Han Zhao,Donglin Wang
発行日 2025-02-19 07:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation はコメントを受け付けていません

Path Planning for Spot Spraying with UAVs Combining TSP and Area Coverages

要約

このペーパーでは、次のタスクに対処します。境界輪郭内でサービスを受けることを目的としたさまざまなサイズのパッチまたはさまざまなサイズの領域を考えると、無人航空機(UAV)の最小長さのパス計画を計算して、パスが与えられた障害物領域をさらに回避するようになります。
そして、境界線を離れることはありません。
念頭にある用途は、農業スポットスプレーです。境界の輪郭はフィールドの輪郭を表し、複数のパッチは噴霧されることを目的とした複数の雑草領域を表します。
障害物エリアは池や木の島です。
提案された方法は、ヒューリスティックソリューションを巡回セールスマンの問題(TSP)と最適化されたエリアカバレッジパス計画と組み合わせます。
2つのTSP復元と4つのTSP補正ヒューリスティック、および2つのエリアカバレッジパス計画方法は、それぞれ3つの障害領域と15、19、197パッチを使用した3つの実際の実験で評価されます。
面積カバレッジギャップ回避のためのブーストロフィドンパスの不適切な可能性について説明し、面積カバレッジのための岬の経路を含めることが動機付けられています。
2つの主な調査結果は、(i)1つのTSP補生ヒューリスティックの特定の適合性、および(ii)総パスレングスのパスカバレッジエリアの予期せぬ高い寄与性であり、スポットスプレーの最適化されたエリアカバレッジパス計画の重要性を強調しています。

要約(オリジナル)

This paper addresses the following task: given a set of patches or areas of varying sizes that are meant to be serviced within a bounding contour calculate a minimal length path plan for an unmanned aerial vehicle (UAV) such that the path additionally avoids given obstacles areas and does never leave the bounding contour. The application in mind is agricultural spot spraying, where the bounding contour represents the field contour and multiple patches represent multiple weed areas meant to be sprayed. Obstacle areas are ponds or tree islands. The proposed method combines a heuristic solution to a traveling salesman problem (TSP) with optimised area coverage path planning. Two TSP-initialisation and 4 TSP-refinement heuristics as well as two area coverage path planning methods are evaluated on three real-world experiments with three obstacle areas and 15, 19 and 197 patches, respectively. The unsuitability of a Boustrophedon-path for area coverage gap avoidance is discussed and inclusion of a headland path for area coverage is motivated. Two main findings are (i) the particular suitability of one TSP-refinement heuristic, and (ii) the unexpected high contribution of patches areas coverage pathlengths on total pathlength, highlighting the importance of optimised area coverage path planning for spot spraying.

arxiv情報

著者 Mogens Plessen
発行日 2025-02-19 08:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Path Planning for Spot Spraying with UAVs Combining TSP and Area Coverages はコメントを受け付けていません

MILE: Model-based Intervention Learning

要約

模倣学習手法は、ロボット工学などの実際の制御シナリオで非常に効果的であることが示されています。
ただし、これらのアプローチは、エラーの複利の問題に悩まされるだけでなく、人間の専門家に完全な軌跡を提供する必要があります。
専門家がロボットを監督し、必要に応じて介入するインタラクティブな方法は存在しますが、これらの拡張は通常、介入期間中に収集されたデータのみを利用し、非介入のタイムステップに隠されたフィードバック信号を無視します。
この作業では、そのような場合に介入がどのように発生するかを策定するモデルを作成し、ほんの一握りの専門家介入でポリシーを学ぶことが可能であることを示します。
私たちの重要な洞察は、介入の存在や介入の欠如に関係なく、現在の状態の質と、選択したアクションの最適性に関する重要な情報を取得することが可能であるということです。
さまざまな離散および連続シミュレーション環境、実際のロボット操作タスク、および人間の被験者研究での方法を評価します。
ビデオとコードはhttps://liralab.usc.edu/mileにあります。

要約(オリジナル)

Imitation learning techniques have been shown to be highly effective in real-world control scenarios, such as robotics. However, these approaches not only suffer from compounding error issues but also require human experts to provide complete trajectories. Although there exist interactive methods where an expert oversees the robot and intervenes if needed, these extensions usually only utilize the data collected during intervention periods and ignore the feedback signal hidden in non-intervention timesteps. In this work, we create a model to formulate how the interventions occur in such cases, and show that it is possible to learn a policy with just a handful of expert interventions. Our key insight is that it is possible to get crucial information about the quality of the current state and the optimality of the chosen action from expert feedback, regardless of the presence or the absence of intervention. We evaluate our method on various discrete and continuous simulation environments, a real-world robotic manipulation task, as well as a human subject study. Videos and the code can be found at https://liralab.usc.edu/mile .

arxiv情報

著者 Yigit Korkmaz,Erdem Bıyık
発行日 2025-02-19 08:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MILE: Model-based Intervention Learning はコメントを受け付けていません

X-IL: Exploring the Design Space of Imitation Learning Policies

要約

モダン模倣学習(IL)ポリシーの設計には、機能のエンコード、アーキテクチャ、ポリシー表現などの選択など、多くの決定を下す必要があります。
フィールドが急速に進むにつれて、利用可能なオプションの範囲が成長し続け、ILポリシーのための広大でほとんど未踏の設計スペースを作成します。
この作業では、この設計空間を体系的に探索するように設計されたアクセス可能なオープンソースフレームワークであるX-ILを提示します。
フレームワークのモジュラー設計により、バックボーン(トランス、MAMBA、XLSTMなど)やポリシー最適化技術(スコアマッチング、フローマッチングなど)などのポリシーコンポーネントのシームレスな交換が可能になります。
この柔軟性は包括的な実験を促進し、最近のロボット学習ベンチマークで既存の方法を上回る新しいポリシー構成の発見につながりました。
私たちの実験は、大幅なパフォーマンスの向上だけでなく、さまざまな設計選択の長所と短所に関する貴重な洞察も提供します。
この研究は、実践者のための実践的な参照と、模倣学習の将来の研究を導くための基盤の両方として機能します。

要約(オリジナル)

Designing modern imitation learning (IL) policies requires making numerous decisions, including the selection of feature encoding, architecture, policy representation, and more. As the field rapidly advances, the range of available options continues to grow, creating a vast and largely unexplored design space for IL policies. In this work, we present X-IL, an accessible open-source framework designed to systematically explore this design space. The framework’s modular design enables seamless swapping of policy components, such as backbones (e.g., Transformer, Mamba, xLSTM) and policy optimization techniques (e.g., Score-matching, Flow-matching). This flexibility facilitates comprehensive experimentation and has led to the discovery of novel policy configurations that outperform existing methods on recent robot learning benchmarks. Our experiments demonstrate not only significant performance gains but also provide valuable insights into the strengths and weaknesses of various design choices. This study serves as both a practical reference for practitioners and a foundation for guiding future research in imitation learning.

arxiv情報

著者 Xiaogang Jia,Atalay Donat,Xi Huang,Xuan Zhao,Denis Blessing,Hongyi Zhou,Han A. Wang,Hanyi Zhang,Qian Wang,Rudolf Lioutikov,Gerhard Neumann
発行日 2025-02-19 08:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | X-IL: Exploring the Design Space of Imitation Learning Policies はコメントを受け付けていません

Towards Fusing Point Cloud and Visual Representations for Imitation Learning

要約

操作のための学習には、ポイントクラウドやRGB画像などの豊富な感覚情報にアクセスできるポリシーを使用する必要があります。
ポイントクラウドは、幾何学的構造を効率的にキャプチャし、模倣学習の操作タスクに不可欠になります。
対照的に、RGB画像は、特定のタスクにとって重要な豊富なテクスチャ情報とセマンティック情報を提供します。
両方のモダリティを融合するための既存のアプローチは、2D画像機能をポイントクラウドに割り当てます。
ただし、そのようなアプローチは、多くの場合、元の画像からグローバルなコンテキスト情報を失います。
この作業では、ポイントクラウドとRGBモダリティの両方の強度を効果的に組み合わせた新しい模倣学習方法であるFPV-NETを提案します。
私たちの方法は、適応層のノルムコンディショニングを使用して、グローバルおよびローカル画像トークンのポイントクラウドエンコーダーを条件付けし、両方のモダリティの有益な特性を活用します。
挑戦的なロボカサベンチマークに関する広範な実験を通じて、いずれかのモダリティだけに依存することの限界を示し、すべてのタスクで最新のパフォーマンスを達成することを示します。

要約(オリジナル)

Learning for manipulation requires using policies that have access to rich sensory information such as point clouds or RGB images. Point clouds efficiently capture geometric structures, making them essential for manipulation tasks in imitation learning. In contrast, RGB images provide rich texture and semantic information that can be crucial for certain tasks. Existing approaches for fusing both modalities assign 2D image features to point clouds. However, such approaches often lose global contextual information from the original images. In this work, we propose FPV-Net, a novel imitation learning method that effectively combines the strengths of both point cloud and RGB modalities. Our method conditions the point-cloud encoder on global and local image tokens using adaptive layer norm conditioning, leveraging the beneficial properties of both modalities. Through extensive experiments on the challenging RoboCasa benchmark, we demonstrate the limitations of relying on either modality alone and show that our method achieves state-of-the-art performance across all tasks.

arxiv情報

著者 Atalay Donat,Xiaogang Jia,Xi Huang,Aleksandar Taranovic,Denis Blessing,Ge Li,Hongyi Zhou,Hanyi Zhang,Rudolf Lioutikov,Gerhard Neumann
発行日 2025-02-19 09:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Fusing Point Cloud and Visual Representations for Imitation Learning はコメントを受け付けていません

Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment

要約

ディープニューラルネットワークモデルは、クローズドセットの設定でトレーニングされ、フルラベルを使用して、3Dシーンの理解において顕著な進歩を遂げました。
ただし、主要なボトルネックは、これらのモデルには、多様な現実世界のアプリケーションでトレーニングカテゴリを超えて目に見えない新しいクラスを認識する能力がないことです。
したがって、特にラベルがかなり不足している状況では、3Dポイントクラウドセグメンテーションと検出の両方に同時に適用できるフレームワークが緊急に必要です。
この作品は、ラベル付きのシーンが非常に限られているときに3Dシーンの理解を扱うための一般化された簡単なフレームワークを提示します。
事前に訓練されたビジョン言語モデルから新しいカテゴリの知識を抽出するために、階層的な特徴を調整した事前トレーニングおよび知識蒸留戦略を提案して、有意義な情報を大規模なビジョン言語モデルから抽出および蒸留します。
– タスクを理解する語彙シーン。
潜在的なインスタンスの識別を促進し、効率を保証するために、ポイントクラウドの監視されていない地域レベルのセマンティックコントラスト学習スキームを提案します。
限られた再構成の場合、WS3D ++と呼ばれる提案されたアプローチは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクの両方で、大規模なスキャネットベンチマークで1位にランクされています。
屋内と屋外の両方のシーンを使用した広範な実験により、データ効率の良い学習とオープンワールドの少数の学習の両方において、アプローチの有効性が実証されました。
このコードは、https://drive.google.com/drive/folders/1m58v-ptr8dbewd296zjkng_m2qq-mtap?usp = sharingで公開されています。

要約(オリジナル)

Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck is that these models do not have the capacity to recognize any unseen novel classes beyond the training categories in diverse real-world applications. Therefore, we are in urgent need of a framework that can simultaneously be applicable to both 3D point cloud segmentation and detection, particularly in the circumstances where the labels are rather scarce. This work presents a generalized and straightforward framework for dealing with 3D scene understanding when the labeled scenes are quite limited. To extract knowledge for novel categories from the pre-trained vision-language models, we propose a hierarchical feature-aligned pre-training and knowledge distillation strategy to extract and distill meaningful information from large-scale vision-language models, which helps benefit the open-vocabulary scene understanding tasks. To encourage latent instance discrimination and to guarantee efficiency, we propose the unsupervised region-level semantic contrastive learning scheme for point clouds, using confident predictions of the neural network to discriminate the intermediate feature embeddings at multiple stages. In the limited reconstruction case, our proposed approach, termed WS3D++, ranks 1st on the large-scale ScanNet benchmark on both the task of semantic segmentation and instance segmentation. Extensive experiments with both indoor and outdoor scenes demonstrated the effectiveness of our approach in both data-efficient learning and open-world few-shot learning. The code is made publicly available at: https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing.

arxiv情報

著者 Kangcheng Liu,Yong-Jin Liu,Baoquan Chen
発行日 2025-02-19 09:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment はコメントを受け付けていません

EnvoDat: A Large-Scale Multisensory Dataset for Robotic Spatial Awareness and Semantic Reasoning in Heterogeneous Environments

要約

多様な現実世界の条件下でのロボットの自律性の効率を確保するために、高品質の不均一なデータセットは、動作アルゴリズムのパフォーマンスと堅牢性をベンチマークするために不可欠です。
現在のベンチマークは、主に都市の地形に焦点を当てています。特に、地下トンネル、自然畑、近代的な屋内スペースなど、多様で密集した植生、動的、機能型の環境を残して、路上での自律運転に焦点を当てています。
このギャップを埋めるために、1日のさまざまな時期に高い照明、霧、雨、ゼロの視界など、多様な環境や条件で収集された大規模なマルチモーダルデータセットであるEnvodatを紹介します。
全体として、Envodatには、13のシーンからの26のシーケンス、10センシングモダリティ、1.9TBを超えるデータ、および82を超えるオブジェクトおよび地形クラスの89Kを超えるファイングレインポリゴンベースの注釈が含まれています。
ベンチマークスラムと監視された学習アルゴリズム、および微調整マルチモーダルビジョンモデルをサポートするさまざまな形式でEnvodatを後処理しました。
Envodatを使用すると、条件が非常に困難な分野での環境抵抗力のあるロボットの自律性に貢献します。
データセットおよびその他の関連するリソースは、https://linusnep.github.io/envodat/からアクセスできます。

要約(オリジナル)

To ensure the efficiency of robot autonomy under diverse real-world conditions, a high-quality heterogeneous dataset is essential to benchmark the operating algorithms’ performance and robustness. Current benchmarks predominantly focus on urban terrains, specifically for on-road autonomous driving, leaving multi-degraded, densely vegetated, dynamic and feature-sparse environments, such as underground tunnels, natural fields, and modern indoor spaces underrepresented. To fill this gap, we introduce EnvoDat, a large-scale, multi-modal dataset collected in diverse environments and conditions, including high illumination, fog, rain, and zero visibility at different times of the day. Overall, EnvoDat contains 26 sequences from 13 scenes, 10 sensing modalities, over 1.9TB of data, and over 89K fine-grained polygon-based annotations for more than 82 object and terrain classes. We post-processed EnvoDat in different formats that support benchmarking SLAM and supervised learning algorithms, and fine-tuning multimodal vision models. With EnvoDat, we contribute to environment-resilient robotic autonomy in areas where the conditions are extremely challenging. The datasets and other relevant resources can be accessed through https://linusnep.github.io/EnvoDat/.

arxiv情報

著者 Linus Nwankwo,Bjoern Ellensohn,Vedant Dave,Peter Hofer,Jan Forstner,Marlene Villneuve,Robert Galler,Elmar Rueckert
発行日 2025-02-19 09:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EnvoDat: A Large-Scale Multisensory Dataset for Robotic Spatial Awareness and Semantic Reasoning in Heterogeneous Environments はコメントを受け付けていません

MonoForce: Learnable Image-conditioned Physics Engine

要約

オンボードカメラの画像からの大まかなオフロード地形でのロボット軌跡の予測のための新しいモデルを提案します。
このモデルは、エンドツーエンドの微分可能であるため、大規模なデータから学習する能力を維持しながら、物理学を認識しているニューラルシンボリック層を通じて古典力学の法則を実施します。
提案されたハイブリッドモデルは、ロボットとテレインの相互作用力を神経系シンボリック層と予測するブラックボックスコンポーネントを統合します。
このレイヤーには、地形との接触点でこれらの力を照会することにより、ロボットの軌跡を計算する微分可能な物理エンジンが含まれています。
提案されているアーキテクチャは、かなりの幾何学的および物理学的事前で構成されているため、結果として得られるモデルは、$ 10^4 $軌道を1秒あたり10ドル4ドルの軌道に供給する実際の画像に条件付けられた学習可能な物理エンジンとも見なすことができます。
このアーキテクチャは、SIMからリアルのギャップを減らし、分散分布の感度を緩和することを主張し、経験的に実証します。
迅速なシミュレーション速度と組み合わせて、差別化性により、モデルの予測制御、軌跡撮影、監視および強化学習またはスラムなど、さまざまなアプリケーションにモデルが適切に適用されます。
コードとデータは公開されています。

要約(オリジナル)

We propose a novel model for the prediction of robot trajectories on rough offroad terrain from the onboard camera images. This model enforces the laws of classical mechanics through a physics-aware neural symbolic layer while preserving the ability to learn from large-scale data as it is end-to-end differentiable. The proposed hybrid model integrates a black-box component that predicts robot-terrain interaction forces with a neural-symbolic layer. This layer includes a differentiable physics engine that computes the robot’s trajectory by querying these forces at the points of contact with the terrain. As the proposed architecture comprises substantial geometrical and physics priors, the resulting model can also be seen as a learnable physics engine conditioned on real images that delivers $10^4$ trajectories per second. We argue and empirically demonstrate that this architecture reduces the sim-to-real gap and mitigates out-of-distribution sensitivity. The differentiability, in conjunction with the rapid simulation speed, makes the model well-suited for various applications including model predictive control, trajectory shooting, supervised and reinforcement learning or SLAM. The codes and data are publicly available.

arxiv情報

著者 Ruslan Agishev,Karel Zimmermann
発行日 2025-02-19 10:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MonoForce: Learnable Image-conditioned Physics Engine はコメントを受け付けていません

FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference

要約

このペーパーでは、オブジェクト検出パフォーマンスに基づいて、自律車両(AVS)の衝突リスクのレベルを推進する新しい監視フレームワークを紹介します。
このフレームワークは、異なるアルゴリズムから2セットの予測を取り、ファジー推論を介して矛盾を衝突リスクと関連付けます。
予測の最初のセットは、深度マップから安全性が批判的な2.5Dオブジェクトを取得することによって取得され、2番目のセットは通常のAVの3Dオブジェクト検出器から供給されます。
それを実験的に検証します。これは、交差点(IOU)と深さの矛盾尺度に基づいて、2つの予測セット間の矛盾が、グラウンドトゥルースに対する3Dオブジェクト検出器の誤差と強く相関しています。
この相関により、ファジー推論システムを構築し、矛盾測定値をAV衝突リスクインジケーターにマッピングできます。
特に、AV衝突率によく一致する既存のオフラインメトリックに向けて、ファジー推論システムを最適化します。
最後に、大規模なヌスセンデータセットで関連するリスク推定値を生成するモニターの機能を検証し、閉ループシミュレーションでAVを保護できることを実証します。

要約(オリジナル)

This paper presents a novel monitoring framework that infers the level of collision risk for autonomous vehicles (AVs) based on their object detection performance. The framework takes two sets of predictions from different algorithms and associates their inconsistencies with the collision risk via fuzzy inference. The first set of predictions is obtained by retrieving safety-critical 2.5D objects from a depth map, and the second set comes from the ordinary AV’s 3D object detector. We experimentally validate that, based on Intersection-over-Union (IoU) and a depth discrepancy measure, the inconsistencies between the two sets of predictions strongly correlate to the error of the 3D object detector against ground truths. This correlation allows us to construct a fuzzy inference system and map the inconsistency measures to an AV collision risk indicator. In particular, we optimize the fuzzy inference system towards an existing offline metric that matches AV collision rates well. Lastly, we validate our monitor’s capability to produce relevant risk estimates with the large-scale nuScenes dataset and demonstrate that it can safeguard an AV in closed-loop simulations.

arxiv情報

著者 Brian Hsuan-Cheng Liao,Yingjie Xu,Chih-Hong Cheng,Hasan Esen,Alois Knoll
発行日 2025-02-19 10:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference はコメントを受け付けていません

SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis

要約

正確なローカリゼーションは、最新の完全な自動運転サービスを実現するために不可欠です。
これらのサービスは、地図ベースのトラフィック情報に大きく依存して、車線の形状、信号機の場所、交通標識を認識する際の不確実性を減らします。
このレベルのマップ情報に依存することを達成するには、センチメートルレベルのローカリゼーションの精度が必要です。これは現在、LIDARセンサーでのみ達成可能です。
ただし、Lidarは、Lidarに対して悪意のあるレーザーを放出して測定を上書きするスプーフィング攻撃に対して脆弱であることが知られています。
ローカリゼーションが侵害されると、攻撃は被害者を道路から導くか、信号を無視させる可能性があります。
これらの深刻な安全への影響に動機付けられた私たちは、自動運転のためのローカライズシステムに対する最初の実用的なライダースプーフィング攻撃であるSlamspoofを設計し、自律車両の実際の攻撃の重要性を評価します。
Slamspoofofは、スプーフィング攻撃に対する潜在的な脆弱性を表すポイントワイズメトリックである、スキャンマッチングの脆弱性スコア(SMVS)に基づいて、効果的な攻撃位置を効果的に見つけることができます。
攻撃の有効性を評価するために、地上車両で実世界の実験を実施し、実際のシナリオでその高い能力を確認し、3つの人気のあるLidarすべての$ 4.2メートル(典型的な車線幅以上)の位置誤差を誘導します。
ベースのローカリゼーションアルゴリズム。
最終的に、この攻撃の潜在的な対策について説明します。
コードはhttps://github.com/keio-csg/slamspoofで入手できます

要約(オリジナル)

Accurate localization is essential for enabling modern full self-driving services. These services heavily rely on map-based traffic information to reduce uncertainties in recognizing lane shapes, traffic light locations, and traffic signs. Achieving this level of reliance on map information requires centimeter-level localization accuracy, which is currently only achievable with LiDAR sensors. However, LiDAR is known to be vulnerable to spoofing attacks that emit malicious lasers against LiDAR to overwrite its measurements. Once localization is compromised, the attack could lead the victim off roads or make them ignore traffic lights. Motivated by these serious safety implications, we design SLAMSpoof, the first practical LiDAR spoofing attack on localization systems for self-driving to assess the actual attack significance on autonomous vehicles. SLAMSpoof can effectively find the effective attack location based on our scan matching vulnerability score (SMVS), a point-wise metric representing the potential vulnerability to spoofing attacks. To evaluate the effectiveness of the attack, we conduct real-world experiments on ground vehicles and confirm its high capability in real-world scenarios, inducing position errors of $\geq$4.2 meters (more than typical lane width) for all 3 popular LiDAR-based localization algorithms. We finally discuss the potential countermeasures of this attack. Code is available at https://github.com/Keio-CSG/slamspoof

arxiv情報

著者 Rokuto Nagata,Kenji Koide,Yuki Hayakawa,Ryo Suzuki,Kazuma Ikeda,Ozora Sako,Qi Alfred Chen,Takami Sato,Kentaro Yoshioka
発行日 2025-02-19 11:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis はコメントを受け付けていません