Reactive Aerobatic Flight via Reinforcement Learning

要約

4四頭角は顕著な汎用性を実証していますが、それらの完全な好気性の可能性は、固有の過小評価と攻撃的な操作の複雑さのためにほとんど未開発のままです。
軌跡の最適化と追跡制御を分離する従来のアプローチは、不正確さ、計算レイテンシ、および初期条件に対する感度の追跡に苦しみ、動的で高アピリティシナリオの有効性を制限します。
データ駆動型の方法の最近のブレークスルーに触発された私たちは、ドローン状態とエアロバティックの意図を直接マップする強化学習ベースのフレームワークとコマンドを制御するためのエアロバティックな意図を提案し、極度のエアロバティック操縦のエンドツーエンドのポリシー最適化を実行できるようにモジュール式分離を排除します。
効率的かつ安定したトレーニングを確保するために、好気性タスクの難易度を動的に調整する自動カリキュラム学習戦略を導入します。
堅牢なゼロショットSIMからリアルへの転送のためにドメインランダム化によって有効になっているこのアプローチは、移動したゲートを反応的にナビゲートしながら自律的に逆逆飛行を実行し、前例のない俊敏性を示しながら、自律的に逆転飛行を実行するドローンの最初のデモンストレーションを含む、要求の厳しい実世界の実験で検証されています。

要約(オリジナル)

Quadrotors have demonstrated remarkable versatility, yet their full aerobatic potential remains largely untapped due to inherent underactuation and the complexity of aggressive maneuvers. Traditional approaches, separating trajectory optimization and tracking control, suffer from tracking inaccuracies, computational latency, and sensitivity to initial conditions, limiting their effectiveness in dynamic, high-agility scenarios. Inspired by recent breakthroughs in data-driven methods, we propose a reinforcement learning-based framework that directly maps drone states and aerobatic intentions to control commands, eliminating modular separation to enable quadrotors to perform end-to-end policy optimization for extreme aerobatic maneuvers. To ensure efficient and stable training, we introduce an automated curriculum learning strategy that dynamically adjusts aerobatic task difficulty. Enabled by domain randomization for robust zero-shot sim-to-real transfer, our approach is validated in demanding real-world experiments, including the first demonstration of a drone autonomously performing continuous inverted flight while reactively navigating a moving gate, showcasing unprecedented agility.

arxiv情報

著者 Zhichao Han,Xijie Huang,Zhuxiu Xu,Jiarui Zhang,Yuze Wu,Mingyang Wang,Tianyue Wu,Fei Gao
発行日 2025-05-30 09:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reactive Aerobatic Flight via Reinforcement Learning はコメントを受け付けていません

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

要約

Vision-Language-active(VLA)モデルなど、Deep Neural Network(DNN)ベースのポリシーモデルは、マルチモーダル入力からの複雑な意思決定の自動化に優れています。
ただし、これらのモデルをスケーリングすると、計算オーバーヘッドが大幅に増加し、ロボット操作や自律運転などのリソース制約のある設定での展開が複雑になります。
これに対処するために、量子化を認識したトレーニングとミッションクリティカルな状態の選択的損失強調戦略を組み合わせた顕著性を認識した量子化された模倣学習(SQIL)を提案します。
これらの状態を顕著性スコアを介して特定し、トレーニング損失でそれらを強調することにより、SQILは低ビットの精度の下で決定の忠実度を保持します。
SQILの一般化機能は、環境のバリエーション、現実世界のタスク、およびクロスドメインタスク(自動運転、物理シミュレーション)を備えた広範なシミュレーションベンチマーク全体で検証し、一貫して全文パフォーマンスを回復します。
特に、ロボット操作用の4ビット重量定量化されたVLAモデルは、最小限の精度損失で最大2.5倍のスピードアップと2.5倍のエネルギー節約を達成します。
これらの結果は、リソース制限デバイスに大規模なILベースのポリシーモデルを効率的に展開するSQILの可能性を強調しています。

要約(オリジナル)

Deep neural network (DNN)-based policy models, such as vision-language-action (VLA) models, excel at automating complex decision-making from multi-modal inputs. However, scaling these models greatly increases computational overhead, complicating deployment in resource-constrained settings like robot manipulation and autonomous driving. To address this, we propose Saliency-Aware Quantized Imitation Learning (SQIL), which combines quantization-aware training with a selective loss-weighting strategy for mission-critical states. By identifying these states via saliency scores and emphasizing them in the training loss, SQIL preserves decision fidelity under low-bit precision. We validate SQIL’s generalization capability across extensive simulation benchmarks with environment variations, real-world tasks, and cross-domain tasks (self-driving, physics simulation), consistently recovering full-precision performance. Notably, a 4-bit weight-quantized VLA model for robotic manipulation achieves up to 2.5x speedup and 2.5x energy savings on an edge GPU with minimal accuracy loss. These results underline SQIL’s potential for efficiently deploying large IL-based policy models on resource-limited devices.

arxiv情報

著者 Seongmin Park,Hyungmin Kim,Sangwoo Kim,Wonseok Jeon,Juyoung Yang,Byeongwook Jeon,Yoonseon Oh,Jungwook Choi
発行日 2025-05-30 10:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control はコメントを受け付けていません

Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform

要約

光学ピンセット(OT)は、生物医学用途でのサブミクロン精度を使用して、マイクロマニキュレーションの比類のない機能を提供します。
ただし、動的環境での複数の複雑な形のマイクロボットの協力的な操作を実現するために、従来のマルチトラップOTを制御することは、重要な課題をもたらします。
これに対処するために、OT駆動型の微量体体向けに設計された強化学習(RL)ベースのシミュレーションプラットフォームであるインタラクティブOTジムを紹介します。
当社のプラットフォームは、複雑な物理フィールドシミュレーションをサポートし、触覚フィードバックインターフェイス、RLモジュール、および協同組合生物学的オブジェクト操作タスクでOT駆動型マイクロボットに合わせたコンテキスト認識共有制御戦略を統合します。
この統合により、マニュアルと自律制御の適応的なブレンドが可能になり、人間の入力と自律操作の間のシームレスな遷移が可能になります。
セル操作タスクを使用して、プラットフォームの有効性を評価しました。
実験結果は、共有制御システムがマイクロ操作のパフォーマンスを大幅に改善し、純粋なヒトまたはRLコントロールのみを使用し、100%の成功率を達成するのに比べて、タスクの完了時間を約67%削減することを示しています。
忠実度、インタラクティブ性、低コスト、高速シミュレーション機能により、インタラクティブなOTジムは、高度なインタラクティブなOT駆動型マイクロマニキュレーションシステムと制御アルゴリズムの開発のためのユーザーフレンドリーなトレーニングとテスト環境として機能します。
プロジェクトの詳細については、当社のウェブサイトhttps://sites.google.com/view/otgymをご覧ください

要約(オリジナル)

Optical tweezers (OT) offer unparalleled capabilities for micromanipulation with submicron precision in biomedical applications. However, controlling conventional multi-trap OT to achieve cooperative manipulation of multiple complex-shaped microrobots in dynamic environments poses a significant challenge. To address this, we introduce Interactive OT Gym, a reinforcement learning (RL)-based simulation platform designed for OT-driven microrobotics. Our platform supports complex physical field simulations and integrates haptic feedback interfaces, RL modules, and context-aware shared control strategies tailored for OT-driven microrobot in cooperative biological object manipulation tasks. This integration allows for an adaptive blend of manual and autonomous control, enabling seamless transitions between human input and autonomous operation. We evaluated the effectiveness of our platform using a cell manipulation task. Experimental results show that our shared control system significantly improves micromanipulation performance, reducing task completion time by approximately 67% compared to using pure human or RL control alone and achieving a 100% success rate. With its high fidelity, interactivity, low cost, and high-speed simulation capabilities, Interactive OT Gym serves as a user-friendly training and testing environment for the development of advanced interactive OT-driven micromanipulation systems and control algorithms. For more details on the project, please see our website https://sites.google.com/view/otgym

arxiv情報

著者 Zongcai Tan,Dandan Zhang
発行日 2025-05-30 11:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform はコメントを受け付けていません

How can AI reduce wrist injuries in the workplace?

要約

このホワイトペーパーでは、労働者の行動を分類および予測することにより、産業用ウェアラブル手首の外骨格のコントロールとセンサー戦略の開発を探ります。
この研究では、設計のために、センサー戦略の最適化とともに、努力された力と努力の強度との相関関係を評価します。
製造工場の6人の健康な被験者からのデータを使用して、このペーパーでは、手首の動き分類と力の予測のためのEMGベースのモデルを紹介します。
手首のモーション認識は、8チャンネルEMGセンサー(MYO ARMBAND)の表面EMGデータで開発されたパターン認識アルゴリズムを通じて達成されます。
一方、力回帰モデルは、市販のハンドヘルド動力計(Vernier Godirect Hand Dynamomer)からの手首と手の力測定を使用します。
この制御戦略は、信頼できる効果的な支援を確保しながら、シンプルさ、コストの削減、センサーの使用を最小限に抑えることに焦点を当てた、産業用途向けに設計された合理化された外骨格建築の基礎を形成します。

要約(オリジナル)

This paper explores the development of a control and sensor strategy for an industrial wearable wrist exoskeleton by classifying and predicting workers’ actions. The study evaluates the correlation between exerted force and effort intensity, along with sensor strategy optimization, for designing purposes. Using data from six healthy subjects in a manufacturing plant, this paper presents EMG-based models for wrist motion classification and force prediction. Wrist motion recognition is achieved through a pattern recognition algorithm developed with surface EMG data from an 8-channel EMG sensor (Myo Armband); while a force regression model uses wrist and hand force measurements from a commercial handheld dynamometer (Vernier GoDirect Hand Dynamometer). This control strategy forms the foundation for a streamlined exoskeleton architecture designed for industrial applications, focusing on simplicity, reduced costs, and minimal sensor use while ensuring reliable and effective assistance.

arxiv情報

著者 Roberto F. Pitzalis,Nicholas Cartocci,Christian Di Natali,Darwin G. Caldwell,Giovanni Berselli,Jesús Ortiz
発行日 2025-05-30 12:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | How can AI reduce wrist injuries in the workplace? はコメントを受け付けていません

Ontological Component-based Description of Robot Capabilities

要約

ロボットのナレッジベースの重要な側面は、それができることについての自己認識です。
割り当てられるタスクとできないタスクを定義できます。
この知識を能力の概念と呼びます。
ロボットが所有するコンポーネントに由来する機能は、リンクすることができます。
この作業では、この概念は、単にそれらにリンクするのではなく、コンポーネントから推測できると仮定します。
したがって、所有するコンポーネントと低レベルの機能に基づいて、エージェントの機能を推測する存在論的手段を紹介します。
この推論により、エージェントは応答性の高い方法で何をできるかを認めることができ、エージェントがたとえば携帯できる外部エンティティに一般化できます。
アクションを開始するには、ロボットはその機能を外部エンティティとリンクする必要があります。
そのためには、外部のエンティティの処分だけでなく、その能力からアフォーダンス関係を推測する必要があります。
この作業は、ソーシャルアフォーダンスを人間のロボットコラボレーションコンテキストに統合するためのより広範な取り組みの一部であり、すでに存在するオントロジーの延長です。

要約(オリジナル)

A key aspect of a robot’s knowledge base is self-awareness about what it is capable of doing. It allows to define which tasks it can be assigned to and which it cannot. We will refer to this knowledge as the Capability concept. As capabilities stems from the components the robot owns, they can be linked together. In this work, we hypothesize that this concept can be inferred from the components rather than merely linked to them. Therefore, we introduce an ontological means of inferring the agent’s capabilities based on the components it owns as well as low-level capabilities. This inference allows the agent to acknowledge what it is able to do in a responsive way and it is generalizable to external entities the agent can carry for example. To initiate an action, the robot needs to link its capabilities with external entities. To do so, it needs to infer affordance relations from its capabilities as well as the external entity’s dispositions. This work is part of a broader effort to integrate social affordances into a Human-Robot collaboration context and is an extension of an already existing ontology.

arxiv情報

著者 Bastien Dussard,Guillaume Sarthou,Aurélie Clodic
発行日 2025-05-30 13:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ontological Component-based Description of Robot Capabilities はコメントを受け付けていません

Blimp-based Crime Scene Analysis

要約

犯罪は重大な問題です。これはしばしば密室で行われ、調査員にさらに困難をもたらします。
隠された真実を明らかにするためには、汚染や劣化が発生する前に、屋内犯罪現場での証拠を文書化する必要があります。
ここでは、人工知能(AI)、コンピュータービジョン、およびロボット工学の観点からこの課題に対処します。具体的には、「フローティングカメラ」として飛行船の使用を調査して、最小限の妨害で証拠を記録します。
迅速なプロトタイピングアプローチを採用して、マニュアルまたは半自律的な操作に必要な機能を調査するための概念実証を開発します。
その結果、我々の結果は、屋内ブリンプにさまざまなコンポーネント(RGBやサーマルカメラ、LIDAR、WiFiなど、20分間のバッテリー寿命)を装備する可能性を示しています。
さらに、核となる前提を確認します。このようなブリンプを使用して、エアフローをほとんど生成しながら犯罪現場の証拠を観察できることを確認します。
最終的には、さらなる議論と探索を刺激することを目的として、検出(例えば、血痕など)、マッピング、パス計画に関連するいくつかのアイデアを提案することで結論付けます。

要約(オリジナル)

Crime is a critical problem — which often takes place behind closed doors, posing additional difficulties for investigators. To bring hidden truths to light, evidence at indoor crime scenes must be documented before any contamination or degradation occurs. Here, we address this challenge from the perspective of artificial intelligence (AI), computer vision, and robotics: Specifically, we explore the use of a blimp as a ‘floating camera’ to drift over and record evidence with minimal disturbance. Adopting a rapid prototyping approach, we develop a proof-of-concept to investigate capabilities required for manual or semi-autonomous operation. Consequently, our results demonstrate the feasibility of equipping indoor blimps with various components (such as RGB and thermal cameras, LiDARs, and WiFi, with 20 minutes of battery life). Moreover, we confirm the core premise: that such blimps can be used to observe crime scene evidence while generating little airflow. We conclude by proposing some ideas related to detection (e.g., of bloodstains), mapping, and path planning, with the aim of stimulating further discussion and exploration.

arxiv情報

著者 Martin Cooney,Fernando Alonso-Fernandez
発行日 2025-05-30 13:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Blimp-based Crime Scene Analysis はコメントを受け付けていません

Scene-Adaptive Motion Planning with Explicit Mixture of Experts and Interaction-Oriented Optimization

要約

10年以上にわたる開発にもかかわらず、複雑な都市環境での自律的な運転軌道計画は、大きな課題に遭遇し続けています。
これらの課題には、軌跡のマルチモーダルの性質に対応することの難しさ、多様なシナリオの管理における単一の専門家モデルの制限、および環境相互作用の考慮不足が含まれます。
これらの問題に対処するために、このペーパーでは、3つの革新的なアプローチを組み込んだEmoe-Plannerを紹介します。
第一に、明示的なMOE(専門家の混合)は、共有シーンルーターを介してシナリオ固有の情報に基づいて専門の専門家を動的に選択します。
第二に、プランナーはシーン固有のクエリを利用してマルチモーダルのプライアーを提供し、関連するターゲット領域にモデルの焦点を向けます。
最後に、エゴ車両と他のエージェント間の相互作用を考慮することにより、予測モデルと損失計算を強化し、それにより計画パフォーマンスを大幅に向上させます。
最先端の方法に対して、Nuplanデータセットで比較実験が行われました。
シミュレーション結果は、私たちのモデルがほぼすべてのテストシナリオでSOTAモデルを常に上回ることを示しています。
私たちのモデルは、ほぼすべてのNuplan閉ループシミュレーションでパフォーマンスを超えるルールベースのアルゴリズムを超える最初の純粋な学習モデルです。

要約(オリジナル)

Despite over a decade of development, autonomous driving trajectory planning in complex urban environments continues to encounter significant challenges. These challenges include the difficulty in accommodating the multi-modal nature of trajectories, the limitations of single expert model in managing diverse scenarios, and insufficient consideration of environmental interactions. To address these issues, this paper introduces the EMoE-Planner, which incorporates three innovative approaches. Firstly, the Explicit MoE (Mixture of Experts) dynamically selects specialized experts based on scenario-specific information through a shared scene router. Secondly, the planner utilizes scene-specific queries to provide multi-modal priors, directing the model’s focus towards relevant target areas. Lastly, it enhances the prediction model and loss calculation by considering the interactions between the ego vehicle and other agents, thereby significantly boosting planning performance. Comparative experiments were conducted on the Nuplan dataset against the state-of-the-art methods. The simulation results demonstrate that our model consistently outperforms SOTA models across nearly all test scenarios. Our model is the first pure learning model to achieve performance surpassing rule-based algorithms in almost all Nuplan closed-loop simulations.

arxiv情報

著者 Hongbiao Zhu,Liulong Ma,Xian Wu,Xin Deng,Xiaoyao Liang
発行日 2025-05-30 13:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Scene-Adaptive Motion Planning with Explicit Mixture of Experts and Interaction-Oriented Optimization はコメントを受け付けていません

A study on the effects of mixed explicit and implicit communications in human-virtual-agent interactions

要約

人間とロボット(または仮想エージェント)の間のコミュニケーションは相互作用に不可欠であり、しばしばジェスチャー、顔の表情、視線の方向、その他の明示的で暗黙的な手段を使用する人間のコミュニケーションに触発されます。
この作業は、人間と仮想エージェントが、明示的な(マウスとキーボード、音声、音、および画面上の情報を使用したジェスチャー、マニュアルエントリ)と暗黙の(視線の方向、位置、表情、眉毛の昇給)コミュニケーションを介して相互作用する相互作用実験を提示します。
ベイジアンパラメーターの推定を使用して得られた結果は、混合明示的および暗黙的な通信が使用された場合、相互作用の知覚効率もない場合、エラーの数とタスクの実行時間が大幅に変化しなかったことを示しています。
対照的に、仮想エージェントの受け入れ、社交性、および透明性は、混合通信モダリティを使用すると増加しました(各変数の効果サイズ後部分布のそれぞれ88.3%、92%、および92.9%は、実際の等価領域の上限を超えていました)。
これは、時間、エラーの数、相互作用の知覚効率などのタスク関連の測定が、特定の実験の通信タイプの影響を受けていないことを示唆しています。
しかし、受け入れ、社交性、透明性など、仮想エージェントに関連する主観的な尺度の改善は、人間が明示的で暗黙のコミュニケーションを混合したことをより受け入れていることを示唆しています。

要約(オリジナル)

Communication between humans and robots (or virtual agents) is essential for interaction and often inspired by human communication, which uses gestures, facial expressions, gaze direction, and other explicit and implicit means. This work presents an interaction experiment where humans and virtual agents interact through explicit (gestures, manual entries using mouse and keyboard, voice, sound, and information on screen) and implicit (gaze direction, location, facial expressions, and raise of eyebrows) communication to evaluate the effect of mixed explicit-implicit communication against purely explicit communication. Results obtained using Bayesian parameter estimation show that the number of errors and task execution time did not significantly change when mixed explicit and implicit communications were used, and neither the perceived efficiency of the interaction. In contrast, acceptance, sociability, and transparency of the virtual agent increased when using mixed communication modalities (88.3%, 92%, and 92.9% of the effect size posterior distribution of each variable, respectively, were above the upper limit of the region of practical equivalence). This suggests that task-related measures, such as time, number of errors, and perceived efficiency of the interaction, have not been influenced by the communication type in our particular experiment. However, the improvement of subjective measures related to the virtual agent, such as acceptance, sociability, and transparency, suggests that humans are more receptive to mixed explicit and implicit communications.

arxiv情報

著者 Ana Christina Almada Campos,Bruno Vilhena Adorno
発行日 2025-05-30 13:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A study on the effects of mixed explicit and implicit communications in human-virtual-agent interactions はコメントを受け付けていません

System-integrated intrinsic static-dynamic pressure sensing enabled by charge excitation and 3D gradient engineering for autonomous robotic interaction

要約

静的入力と動的入力を区別する高解像度の圧力センシングは、インテリジェントなロボット工学には不可欠ですが、自己電力センサーにとっては困難なままです。
電荷励起を3Dグラデーションエンジニアリング構造と統合する自己能力のある内因性静的ダイナミック圧力センサー(ISDセンサー)を提示し、静的モードでは静的で15xで25倍の強化電圧出力を実現します。
センサーは、複数領域の感度(最大34.7 V/kPA静的、48.4 V/kPAダイナミック)、6.13 PAの低い検出限界、および迅速な応答/回復時間(83/43ミリ秒)を示します。
この設計により、微妙な触覚知覚が可能になり、デュアルモードロボット制御をサポートします。静的信号を介した比例作動と動的入力による高速トリガーです。
ワイヤレス閉ループシステムに統合されたISDセンサーは、指の曲げ、オブジェクトの把握、手話の出力などの正確な機能を有効にします。

要約(オリジナル)

High-resolution pressure sensing that distinguishes static and dynamic inputs is vital for intelligent robotics but remains challenging for self-powered sensors. We present a self-powered intrinsic static-dynamic pressure sensor (iSD Sensor) that integrates charge excitation with a 3D gradient-engineered structure, achieving enhanced voltage outputs-over 25X for static and 15X for dynamic modes. The sensor exhibits multi-region sensitivities (up to 34.7 V/kPa static, 48.4 V/kPa dynamic), a low detection limit of 6.13 Pa, and rapid response/recovery times (83/43 ms). This design enables nuanced tactile perception and supports dual-mode robotic control: proportional actuation via static signals and fast triggering via dynamic inputs. Integrated into a wireless closed-loop system, the iSD Sensor enables precise functions such as finger bending, object grasping, and sign language output.

arxiv情報

著者 Kequan Xia,Song Yang,Jianguo Lu,Min Yu
発行日 2025-05-30 14:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.app-ph | System-integrated intrinsic static-dynamic pressure sensing enabled by charge excitation and 3D gradient engineering for autonomous robotic interaction はコメントを受け付けていません

Black-box Adversarial Attacks on CNN-based SLAM Algorithms

要約

深い学習の継続的な進歩により、機能検出が大幅に進歩し、同時ローカリゼーションやマッピング(SLAM)などのタスクの精度が向上しました。
それにもかかわらず、敵対的な攻撃に対する深いニューラルネットワークの脆弱性は、自律エージェントのナビゲーションなど、アプリケーションでの信頼できる展開にとって課題のままです。
CNNベースのSLAMアルゴリズムは成長している研究分野ですが、SLAMシステムの一部として、CNNベースの特徴検出器を対象とした包括的なプレゼンテーションと敵対的攻撃の検査が顕著に欠けています。
私たちの研究では、GCN-SLAMアルゴリズムに供給されたRGB画像に適用されるブラックボックスの敵対的摂動を紹介します。
Tum Dataset [30]に関する私たちの調査結果は、中程度のスケールの攻撃でさえ、フレームの76%で追跡障害につながる可能性があることを明らかにしています。
さらに、私たちの実験は、SLAMシステム上のRGB入力画像の代わりに、深さを攻撃することの壊滅的な影響を強調しています。

要約(オリジナル)

Continuous advancements in deep learning have led to significant progress in feature detection, resulting in enhanced accuracy in tasks like Simultaneous Localization and Mapping (SLAM). Nevertheless, the vulnerability of deep neural networks to adversarial attacks remains a challenge for their reliable deployment in applications, such as navigation of autonomous agents. Even though CNN-based SLAM algorithms are a growing area of research there is a notable absence of a comprehensive presentation and examination of adversarial attacks targeting CNN-based feature detectors, as part of a SLAM system. Our work introduces black-box adversarial perturbations applied to the RGB images fed into the GCN-SLAM algorithm. Our findings on the TUM dataset [30] reveal that even attacks of moderate scale can lead to tracking failure in as many as 76% of the frames. Moreover, our experiments highlight the catastrophic impact of attacking depth instead of RGB input images on the SLAM system.

arxiv情報

著者 Maria Rafaela Gkeka,Bowen Sun,Evgenia Smirni,Christos D. Antonopoulos,Spyros Lalis,Nikolaos Bellas
発行日 2025-05-30 14:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68M25, 68T40, 68T45, cs.CV, cs.RO | Black-box Adversarial Attacks on CNN-based SLAM Algorithms はコメントを受け付けていません