OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりの両方を活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントを環境に導くことを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、汎用性の高いツールチェーンと空中VLNの大規模なベンチマークを含むプラットフォームであるOpenFlyを提案します。
まず、データ収集用の高度に自動化されたツールチェーンを開発し、自動ポイントクラウドの取得、シーンセマンティックセグメンテーション、フライト軌道の作成、および命令生成を可能にします。
第二に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
対応する視覚データは、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、さまざまなレンダリングエンジンと高度な技術を使用して生成されます。
すべてのデータは高い視覚品質を示しています。
特に、3D GSは実際のレンダリングをサポートし、データセットのリアリズムをさらに強化します。
第三に、言語命令、現在の観測、および履歴キーフレームを入力として採用し、飛行アクションを直接出力するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
広範な分析と実験が行われ、OpenFlyプラットフォームとOpenFly-Agentの優位性を示しています。
ツールチェーン、データセット、およびコードはオープンソースをかけます。

要約(オリジナル)

Vision-Language Navigation (VLN) aims to guide agents through an environment by leveraging both language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising a versatile toolchain and large-scale benchmark for aerial VLN. Firstly, we develop a highly automated toolchain for data collection, enabling automatic point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Secondly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. The corresponding visual data are generated using various rendering engines and advanced techniques, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). All data exhibit high visual quality. Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of the dataset. Thirdly, we propose OpenFly-Agent, a keyframe-aware VLN model, which takes language instructions, current observations, and historical keyframes as input, and outputs flight actions directly. Extensive analyses and experiments are conducted, showcasing the superiority of our OpenFly platform and OpenFly-Agent. The toolchain, dataset, and codes will be open-sourced.

arxiv情報

著者 Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2025-02-25 09:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation はコメントを受け付けていません

S-Graphs 2.0 — A Hierarchical-Semantic Optimization and Loop Closure for SLAM

要約

ローカリゼーションとマッピングに基づいた作業は、ロボットポーズとそのマップ要素をより高速かつ効率的な管理と最適化のために、環境からの固有のセマンティックリレーショナル情報を活用せず、多くの場合、大規模な環境での不正確さと計算の非効率性をもたらし、マッピングします。
環境を階層的に分配する3Dシーングラフ表現を活用して、基礎となるロボットポーズとそのマップの管理/最適化を強化することができます。
この方向には、効率的なデータ管理と最適化のために屋内シーンの階層構造を活用する作業状況グラフ2.0を提示します。
私たちのアルゴリズムは、キーフレーム、壁、部屋、床の4つのレイヤーに環境を整理する状況グラフを構築することから始まります。
私たちの最初のノベルティは、階段を識別し、床レベルのセマンティック関係を基礎となる層に割り当てることができるフロア検出モジュールを含むフロントエンドにあります。
このフロアレベルのセマンティックは、フロアベースのループ閉鎖戦略を可能にし、異なる床の視覚的に類似した領域での偽陽性ループ閉鎖を拒否します。
2番目の斬新さは、最適化の改善のために階層を利用することです。
(1)ローカル最適化、最近のキーフレームとその接続されたコンポーネントのウィンドウの最適化、(2)ループクロージャー中の現在の床内のキーフレームとその接続のみに焦点を当てた床 – グローバル最適化、および(3)部屋
– ローカルの最適化、部屋内の観測を共有する冗長な冗長キーフレームを疎外する。
さまざまな実際のマルチフロア環境でアルゴリズムを広範囲に検証します。
私たちのアプローチは、いくつかのベースラインが効率的に実行できない計算の複雑さを制限しながら、階層マップを作成する大規模なマルチフロア環境で最先端の結果を示すことができます。

要約(オリジナル)

Works based on localization and mapping do not exploit the inherent semantic-relational information from the environment for faster and efficient management and optimization of the robot poses and its map elements, often leading to pose and map inaccuracies and computational inefficiencies in large scale environments. 3D scene graph representations which distributes the environment in an hierarchical manner can be exploited to enhance the management/optimization of underlying robot poses and its map. In this direction, we present our work Situational Graphs 2.0, which leverages the hierarchical structure of indoor scenes for efficient data management and optimization. Our algorithm begins by constructing a situational graph that organizes the environment into four layers: Keyframes, Walls, Rooms, and Floors. Our first novelty lies in the front-end which includes a floor detection module capable of identifying stairways and assigning a floor-level semantic-relations to the underlying layers. This floor-level semantic enables a floor-based loop closure strategy, rejecting false-positive loop closures in visually similar areas on different floors. Our second novelty is in exploiting the hierarchy for an improved optimization. It consists of: (1) local optimization, optimizing a window of recent keyframes and their connected components, (2) floor-global optimization, which focuses only on keyframes and their connections within the current floor during loop closures, and (3) room-local optimization, marginalizing redundant keyframes that share observations within the room. We validate our algorithm extensively in different real multi-floor environments. Our approach can demonstrate state-of-art-art results in large scale multi-floor environments creating hierarchical maps while bounding the computational complexity where several baseline works fail to execute efficiently.

arxiv情報

著者 Hriday Bavle,Jose Luis Sanchez-Lopez,Muhammad Shaheer,Javier Civera,Holger Voos
発行日 2025-02-25 10:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SE | S-Graphs 2.0 — A Hierarchical-Semantic Optimization and Loop Closure for SLAM はコメントを受け付けていません

Ordered Genetic Algorithm for Entrance Dependent Vehicle Routing Problem in Farms

要約

車両ルーティングの問題(VRP)は、多くの生産シナリオで重要な役割を果たす広く研究されている問題です。
VRPの実際のシナリオでは、都市のサイズとその入り口が最適化プロセスに大きく影響する可能性があることに気付きました。
これに対処するために、そのような問題を説明するために、入り口に依存するVRP(EDVRP)を構築しました。
農場でEDVRPに数学的定式化を提供し、それを解決するために順序付けられた遺伝的アルゴリズム(OGA)を提案します。
OGAの有効性は、ランダムに生成された多数のケースを含む実験を通じて実証されています。
結果は、OGAがランダム戦略ベースラインと注文せずに遺伝的アルゴリズムと比較して特定の利点を提供することを示しています。
さらに、この論文で導入された新しいオペレーターは、アブレーション実験を通じて検証されており、アルゴリズムのパフォーマンスを向上させる有効性を証明しています。

要約(オリジナル)

Vehicle Routing Problems (VRP) are widely studied issues that play important roles in many production scenarios. We have noticed that in some practical scenarios of VRP, the size of cities and their entrances can significantly influence the optimization process. To address this, we have constructed the Entrance Dependent VRP (EDVRP) to describe such problems. We provide a mathematical formulation for the EDVRP in farms and propose an Ordered Genetic Algorithm (OGA) to solve it. The effectiveness of OGA is demonstrated through our experiments, which involve a multitude of randomly generated cases. The results indicate that OGA offers certain advantages compared to a random strategy baseline and a genetic algorithm without ordering. Furthermore, the novel operators introduced in this paper have been validated through ablation experiments, proving their effectiveness in enhancing the performance of the algorithm.

arxiv情報

著者 Haotian Xu,Xiaohui Fan,Jialin Zhu,Qing Zhuo,Tao Zhang
発行日 2025-02-25 10:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ordered Genetic Algorithm for Entrance Dependent Vehicle Routing Problem in Farms はコメントを受け付けていません

HEROS-GAN: Honed-Energy Regularized and Optimal Supervised GAN for Enhancing Accuracy and Range of Low-Cost Accelerometers

要約

低コストの加速度計は、小さなサイズ、統合の容易さ、摩耗性、大量生産の利点のために現代社会で重要な役割を果たし、自動車システム、航空宇宙、ウェアラブル技術に広く適用可能になります。
ただし、この広く使用されているセンサーは、深刻な精度と範囲の制限に苦しんでいます。
この目的のために、私たちは、低コストのセンサー信号を高コストの等価物に変換するため、低コストの加速度計の精度と範囲の制限を克服する、磨かれたエネルギーの正規化された最適な監視装置Gan(Heros-Gan)を提案します。
トレーニング用のフレームレベルのペアリングされた低コストと高コストの信号が不足しているため、最適な輸送監督(OT)を提案します。これは、最適な輸送理論を活用して、対応のないデータ間の潜在的な一貫性を調査し、監督情報を最大化します。
さらに、調整されたラプラスエネルギー(MLE)を提案します。これは、発電機に適切なエネルギーを注入して、範囲の制限を破り、局所的な変化を強化し、信号の詳細を濃縮するように促します。
専用のデータセットがないことを考えると、数万のサンプルを含む低コストの加速度計シグナル強化データセット(lased)を具体的に確立します。これは、加速度計の精度と範囲を改善し、Githubでリリースされる最初のデータセットです。
実験結果は、OTまたはMLEのみと組み合わせたGANが、以前の信号増強SOTAメソッドを1桁上回ることができることを示しています。
OTとMLEの両方を統合すると、Heros-Ganは顕著な結果を達成し、加速度計の範囲を2倍にしながら、信号ノイズを2桁減らし、加速度計シグナル処理のベンチマークを確立します。

要約(オリジナル)

Low-cost accelerometers play a crucial role in modern society due to their advantages of small size, ease of integration, wearability, and mass production, making them widely applicable in automotive systems, aerospace, and wearable technology. However, this widely used sensor suffers from severe accuracy and range limitations. To this end, we propose a honed-energy regularized and optimal supervised GAN (HEROS-GAN), which transforms low-cost sensor signals into high-cost equivalents, thereby overcoming the precision and range limitations of low-cost accelerometers. Due to the lack of frame-level paired low-cost and high-cost signals for training, we propose an Optimal Transport Supervision (OTS), which leverages optimal transport theory to explore potential consistency between unpaired data, thereby maximizing supervisory information. Moreover, we propose a Modulated Laplace Energy (MLE), which injects appropriate energy into the generator to encourage it to break range limitations, enhance local changes, and enrich signal details. Given the absence of a dedicated dataset, we specifically establish a Low-cost Accelerometer Signal Enhancement Dataset (LASED) containing tens of thousands of samples, which is the first dataset serving to improve the accuracy and range of accelerometers and is released in Github. Experimental results demonstrate that a GAN combined with either OTS or MLE alone can surpass the previous signal enhancement SOTA methods by an order of magnitude. Integrating both OTS and MLE, the HEROS-GAN achieves remarkable results, which doubles the accelerometer range while reducing signal noise by two orders of magnitude, establishing a benchmark in the accelerometer signal processing.

arxiv情報

著者 Yifeng Wang,Yi Zhao
発行日 2025-02-25 10:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP, math.PR | HEROS-GAN: Honed-Energy Regularized and Optimal Supervised GAN for Enhancing Accuracy and Range of Low-Cost Accelerometers はコメントを受け付けていません

MRBTP: Efficient Multi-Robot Behavior Tree Planning and Collaboration

要約

マルチロボットタスクの計画とコラボレーションは、ロボット工学における重要な課題です。
動作ツリー(BTS)は一般的な制御アーキテクチャとして確立されており、単一のロボットで計画できますが、効果的なマルチロボットBT計画アルゴリズムの開発は、多様なアクションスペースの調整の複雑さのために依然として困難です。
マルチロボット行動ツリープランニング(MRBTP)アルゴリズムを提案し、健全性と完全性の両方を保証します。
MRBTPは、チームの目標を達成するために、さまざまなBTS間の異種アクションを調整するためのクロスツリー拡張を特徴としています。
均一なアクションのために、BTS間のバックアップ構造を保持して、堅牢性を確保し、意図共有を通じて冗長な実行を防ぎます。
MRBTPは、均一なロボットチームと不均一なロボットチームの両方でBTSを生成できますが、その効率をさらに改善することができます。
次に、各ロボットの目標関連アクションを推論するために大規模な言語モデル(LLM)が利用可能な場合、MRBTPのオプションプラグインを提案します。
これらの関連するアクションは、MRBTPの計画速度とコラボレーション効率を大幅に向上させるために、事前に計画することができます。
倉庫管理と日常のサービスシナリオでのアルゴリズムを評価します。
結果は、さまざまな設定でのMRBTPの堅牢性と実行効率、および事前に訓練されたLLMがMRBTPの効果的なタスク固有のサブツリーを生成する能力を示しています。

要約(オリジナル)

Multi-robot task planning and collaboration are critical challenges in robotics. While Behavior Trees (BTs) have been established as a popular control architecture and are plannable for a single robot, the development of effective multi-robot BT planning algorithms remains challenging due to the complexity of coordinating diverse action spaces. We propose the Multi-Robot Behavior Tree Planning (MRBTP) algorithm, with theoretical guarantees of both soundness and completeness. MRBTP features cross-tree expansion to coordinate heterogeneous actions across different BTs to achieve the team’s goal. For homogeneous actions, we retain backup structures among BTs to ensure robustness and prevent redundant execution through intention sharing. While MRBTP is capable of generating BTs for both homogeneous and heterogeneous robot teams, its efficiency can be further improved. We then propose an optional plugin for MRBTP when Large Language Models (LLMs) are available to reason goal-related actions for each robot. These relevant actions can be pre-planned to form long-horizon subtrees, significantly enhancing the planning speed and collaboration efficiency of MRBTP. We evaluate our algorithm in warehouse management and everyday service scenarios. Results demonstrate MRBTP’s robustness and execution efficiency under varying settings, as well as the ability of the pre-trained LLM to generate effective task-specific subtrees for MRBTP.

arxiv情報

著者 Yishuai Cai,Xinglin Chen,Zhongxuan Cai,Yunxin Mao,Minglong Li,Wenjing Yang,Ji Wang
発行日 2025-02-25 10:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | MRBTP: Efficient Multi-Robot Behavior Tree Planning and Collaboration はコメントを受け付けていません

Following the Human Thread in Social Navigation

要約

共有環境での人間とロボットの間のコラボレーションの成功は、ロボットの人間の動きへのリアルタイムの適応に依存しています。
具体的には、ソーシャルナビゲーションでは、エージェントは支援するのに十分なほど近づいている必要がありますが、衝突を避けて人間を自由に動かすためにバックアップする準備ができている必要があります。
人間の軌跡は、社会的航法で重要な手がかりとして現れますが、それらはロボットのエゴセントリックな見解から部分的に観察可能であり、計算的に複雑です。
社会的ダイナミクスを推測するために、ロボットの状態行動履歴に基づいて、最初の社会的ダイナミクス適応モデル(SDA)を提示します。
2段階の強化学習フレームワークを提案します。最初の学習は、人間の軌跡を社会的ダイナミクスにエンコードすることを学び、このエンコードされた情報、現在のステータス、および以前のアクションに条件付けられたモーションポリシーを学習します。
ここでは、軌跡が完全に見える、つまり特権情報として想定されています。
第2段階では、訓練されたポリシーは軌道に直接アクセスすることなく動作します。
代わりに、モデルは、以前のアクションとステータスの歴史とリアルタイムでのみソーシャルダイナミクスを推進します。
新しいHabitat 3.0プラットフォームでテストされたSDAは、人間の発見とフォローにおいて、新しい最先端(SOTA)のパフォーマンスを設定しています。
コードはhttps://github.com/l-scofano/sdaにあります。

要約(オリジナル)

The success of collaboration between humans and robots in shared environments relies on the robot’s real-time adaptation to human motion. Specifically, in Social Navigation, the agent should be close enough to assist but ready to back up to let the human move freely, avoiding collisions. Human trajectories emerge as crucial cues in Social Navigation, but they are partially observable from the robot’s egocentric view and computationally complex to process. We present the first Social Dynamics Adaptation model (SDA) based on the robot’s state-action history to infer the social dynamics. We propose a two-stage Reinforcement Learning framework: the first learns to encode the human trajectories into social dynamics and learns a motion policy conditioned on this encoded information, the current status, and the previous action. Here, the trajectories are fully visible, i.e., assumed as privileged information. In the second stage, the trained policy operates without direct access to trajectories. Instead, the model infers the social dynamics solely from the history of previous actions and statuses in real-time. Tested on the novel Habitat 3.0 platform, SDA sets a novel state-of-the-art (SotA) performance in finding and following humans. The code can be found at https://github.com/L-Scofano/SDA.

arxiv情報

著者 Luca Scofano,Alessio Sampieri,Tommaso Campari,Valentino Sacco,Indro Spinelli,Lamberto Ballan,Fabio Galasso
発行日 2025-02-25 10:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Following the Human Thread in Social Navigation はコメントを受け付けていません

Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck

要約

多様なオブジェクト操作が可能な自律エージェントは、高い再利用性を備えた幅広い操作スキルを習得できるはずです。
深い学習の進歩により、ロボットの人間の操作の器用さを再現することがますます実行可能になりましたが、これらの獲得したスキルを以前に見えなかったシナリオに一般化することは依然として重要な課題です。
この研究では、オブジェクトの位置とエンドエフェクターのポーズが提供されたデモンストレーションのものとは異なる場合でも、学習された動きの高い再利用性を可能にする、新しいアルゴリズムである視線ベースのボトルネックを意識したロボット操作(GazeBot)を提案します。
視線情報とモーションボトルネックを活用することにより、両方ともオブジェクト操作のための重要な機能の両方で、Gazebotは、その器用さと反応性を犠牲にすることなく、最先端の模倣学習方法と比較して高い一般化パフォーマンスを実現します。
さらに、GazeBotのトレーニングプロセスは、視線データを備えたデモデータセットが提供されると、完全にデータ駆動型です。
ビデオとコードは、https://crumbyrobotics.github.io/gazebotで入手できます。

要約(オリジナル)

Autonomous agents capable of diverse object manipulations should be able to acquire a wide range of manipulation skills with high reusability. Although advances in deep learning have made it increasingly feasible to replicate the dexterity of human teleoperation in robots, generalizing these acquired skills to previously unseen scenarios remains a significant challenge. In this study, we propose a novel algorithm, Gaze-based Bottleneck-aware Robot Manipulation (GazeBot), which enables high reusability of the learned motions even when the object positions and end-effector poses differ from those in the provided demonstrations. By leveraging gaze information and motion bottlenecks, both crucial features for object manipulation, GazeBot achieves high generalization performance compared with state-of-the-art imitation learning methods, without sacrificing its dexterity and reactivity. Furthermore, the training process of GazeBot is entirely data-driven once a demonstration dataset with gaze data is provided. Videos and code are available at https://crumbyrobotics.github.io/gazebot.

arxiv情報

著者 Ryo Takizawa,Izumi Karino,Koki Nakagawa,Yoshiyuki Ohmura,Yasuo Kuniyoshi
発行日 2025-02-25 11:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck はコメントを受け付けていません

A Real-time Spatio-Temporal Trajectory Planner for Autonomous Vehicles with Semantic Graph Optimization

要約

複雑な都市環境で知覚情報を完全に利用することにより、リアルタイムで自動運転車の安全で実行可能な軌跡を計画することは困難です。
この論文では、グラフの最適化に基づいて、時空間軌道計画方法を提案します。
静的および動的障害物の分離処理を通じてセマンティックな時空間マップを構築することにより、知覚モジュールのマルチモーダル情報を効率的に抽出し、セマンティックの時空間型ハイパーグラフに基づくスパースグラフ最適化を介して実行可能な軌跡を迅速に生成します。
広範な実験では、提案された方法が複雑な都市の公道シナリオを効果的に処理し、リアルタイムで実行できることが証明されています。
また、研究コミュニティのベンチマークに対応するためにコードをリリースします

要約(オリジナル)

Planning a safe and feasible trajectory for autonomous vehicles in real-time by fully utilizing perceptual information in complex urban environments is challenging. In this paper, we propose a spatio-temporal trajectory planning method based on graph optimization. It efficiently extracts the multi-modal information of the perception module by constructing a semantic spatio-temporal map through separation processing of static and dynamic obstacles, and then quickly generates feasible trajectories via sparse graph optimization based on a semantic spatio-temporal hypergraph. Extensive experiments have proven that the proposed method can effectively handle complex urban public road scenarios and perform in real time. We will also release our codes to accommodate benchmarking for the research community

arxiv情報

著者 Shan He,Yalong Ma,Tao Song,Yongzhi Jiang,Xinkai Wu
発行日 2025-02-25 12:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Real-time Spatio-Temporal Trajectory Planner for Autonomous Vehicles with Semantic Graph Optimization はコメントを受け付けていません

iTrash: Incentivized Token Rewards for Automated Sorting and Handling

要約

ロボットシステム(RS)がより自律的になるにつれて、クリーニング、インフラメンテナンス、リソース管理などのタスクを自動化するために、小さなスペースやオフィスでますます使用されています。
この論文では、小さなオフィススペースのリサイクル率を改善することを目的としたインテリジェントなゴミであるItrashを提案します。
そのために、私たちは5日間の実験を実行し、Itrashが従来のゴミ箱と比較して30%以上の効率を増加させることができることがわかりました。
この作業から導き出された結果は、ITrashを使用するとリサイクル率が増加するだけでなく、ユーザーの動作やビン使用パターンなどの貴重なデータも提供するという事実を指し示しています。
この情報は、これらのスペースのいくつかのタスクを予測および最適化するために使用できます。
最後に、ブロックチェーンテクノロジーを使用してリサイクルのための経済的インセンティブを作成する可能性を調査しました。

要約(オリジナル)

As robotic systems (RS) become more autonomous, they are becoming increasingly used in small spaces and offices to automate tasks such as cleaning, infrastructure maintenance, or resource management. In this paper, we propose iTrash, an intelligent trashcan that aims to improve recycling rates in small office spaces. For that, we ran a 5 day experiment and found that iTrash can produce an efficiency increase of more than 30% compared to traditional trashcans. The findings derived from this work, point to the fact that using iTrash not only increase recyclying rates, but also provides valuable data such as users behaviour or bin usage patterns, which cannot be taken from a normal trashcan. This information can be used to predict and optimize some tasks in these spaces. Finally, we explored the potential of using blockchain technology to create economic incentives for recycling, following a Save-as-you-Throw (SAYT) model.

arxiv情報

著者 Pablo Ortega,Eduardo Castelló Ferrer
発行日 2025-02-25 12:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.RO, I.2.10 | iTrash: Incentivized Token Rewards for Automated Sorting and Handling はコメントを受け付けていません

Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks

要約

ロボットや自動運転車を含む具体化されたAIシステムは、環境レベルとシステムレベルの両方の要因に起因するさまざまな脆弱性に遭遇する現実世界のアプリケーションにますます統合されています。
これらの脆弱性は、センサーのスプーフィング、敵対的な攻撃、およびタスクとモーションの計画の失敗を通じて現れ、堅牢性と安全性に大きな課題をもたらします。
増加している研究機関にもかかわらず、既存のレビューは、具体的に具体的にAIシステムのユニークな安全性とセキュリティの課題に焦点を当てることはめったにありません。
ほとんどの以前の研究は、一般的なAIの脆弱性に対処するか、孤立した側面に焦点を当てていますが、具体化されたAIに合わせた専用の統一されたフレームワークがありません。
この調査では、この重要なギャップを埋めます。(1)具体化されたAIに特有の脆弱性を外因性(例えば、物理的攻撃、サイバーセキュリティの脅威)および内因性(例えば、センサーの障害、ソフトウェアの欠陥)の起源に分類します。
(2)具体化されたAIに固有の敵対的攻撃パラダイムを体系的に分析し、知覚、意思決定、具体化された相互作用への影響に焦点を当てています。
(3)脱獄攻撃や指導の誤解などの具体化されたシステム内の大規模なビジョン言語モデル(LVLMS)および大規模な言語モデル(LLM)を対象とした攻撃ベクトルの調査。
(4)具体化された認識、意思決定、およびタスク計画のためのアルゴリズムの堅牢性の課題を評価する。
(5)具体化されたAIシステムの安全性と信頼性を高めるためのターゲット戦略を提案する。
これらの次元を統合することにより、具体化されたAIの脆弱性と安全性の相互作用を理解するための包括的なフレームワークを提供します。

要約(オリジナル)

Embodied AI systems, including robots and autonomous vehicles, are increasingly integrated into real-world applications, where they encounter a range of vulnerabilities stemming from both environmental and system-level factors. These vulnerabilities manifest through sensor spoofing, adversarial attacks, and failures in task and motion planning, posing significant challenges to robustness and safety. Despite the growing body of research, existing reviews rarely focus specifically on the unique safety and security challenges of embodied AI systems. Most prior work either addresses general AI vulnerabilities or focuses on isolated aspects, lacking a dedicated and unified framework tailored to embodied AI. This survey fills this critical gap by: (1) categorizing vulnerabilities specific to embodied AI into exogenous (e.g., physical attacks, cybersecurity threats) and endogenous (e.g., sensor failures, software flaws) origins; (2) systematically analyzing adversarial attack paradigms unique to embodied AI, with a focus on their impact on perception, decision-making, and embodied interaction; (3) investigating attack vectors targeting large vision-language models (LVLMs) and large language models (LLMs) within embodied systems, such as jailbreak attacks and instruction misinterpretation; (4) evaluating robustness challenges in algorithms for embodied perception, decision-making, and task planning; and (5) proposing targeted strategies to enhance the safety and reliability of embodied AI systems. By integrating these dimensions, we provide a comprehensive framework for understanding the interplay between vulnerabilities and safety in embodied AI.

arxiv情報

著者 Wenpeng Xing,Minghao Li,Mohan Li,Meng Han
発行日 2025-02-25 12:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.RO | Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks はコメントを受け付けていません