C*: A Coverage Path Planning Algorithm for Unknown Environments using Rapidly Covering Graphs

要約

この論文は、不明な環境のリアルタイムカバレッジパス計画(CPP)について、C*と呼ばれる新しいサンプルベースのアルゴリズムを提示します。
C*アルゴリズムは、迅速にカバーするグラフ(RCGS)の概念に基づいて構築されます。
RCGは、ロボットナビゲーション中のプログレッシブサンプリングを介して段階的に構築され、検索スペースの細胞分解の必要性が排除されます。
RCGには、効率的なサンプリングと剪定技術によって形成されたまばらなグラフ構造があり、カバレッジ軌道の非思語のウェイポイントを生成します。
C*は目的の前後のカバレッジパターンを生成しますが、障害物と対象領域に囲まれたカバレッジホールと呼ばれる小さな覆われていない領域のTSPベースの局所的に最適なカバレッジに適応します。
したがって、c*は、カバレッジホールをその場で積極的に検出およびカバーします。これにより、遠くの領域からのより長い戻り軌道が後でそのような穴を覆うのを防ぐことにより、カバレッジ時間が短縮されます。
アルゴリズムのシンプルさとC*の計算の複雑さが低いため、実装が簡単で、リアルタイムのオンボードアプリケーションに適しています。
C*が不明な環境の完全なカバレッジを提供することが分析的に証明されています。
C*のパフォーマンスは、1)広範な高忠実度シミュレーションと2)自律ロボットを使用した実際の実験室実験によって検証されます。
7つの既存のCPPメソッドとの比較評価は、C*がカバレッジ時間、ターン数、軌跡の長さ、オーバーラップ比の点で大幅なパフォーマンスの改善をもたらし、カバレッジ穴の形成を防ぐことを示しています。
最後に、C*は、1)エネルギー制約のロボットと2)マルチロボットチームを使用して、CPPの2つの異なるアプリケーションで評価されます。

要約(オリジナル)

The paper presents a novel sample-based algorithm, called C*, for real-time coverage path planning (CPP) of unknown environments. The C* algorithm is built upon the concept of Rapidly Covering Graph (RCGs). The RCG is constructed incrementally via progressive sampling during robot navigation, which eliminates the need for cellular decomposition of the search space. The RCG has a sparse-graph structure formed by efficient sampling and pruning techniques, which produces non-myopic waypoints of the coverage trajectory. While C* produces the desired back and forth coverage pattern, it adapts to the TSP-based locally optimal coverage of small uncovered regions, called coverage holes, that are surrounded by obstacles and covered regions. Thus, C* proactively detects and covers the coverage holes in situ, which reduces the coverage time by preventing the longer return trajectories from distant regions to cover such holes later. The algorithmic simplicity and low computational complexity of C* makes it easy to implement and suitable for real-time onboard applications. It is analytically proven that C* provides complete coverage of unknown environments. The performance of C* is validated by 1) extensive high-fidelity simulations and 2) real laboratory experiments using autonomous robots. A comparative evaluation with seven existing CPP methods demonstrate that C* yields significant performance improvements in terms of coverage time, number of turns, trajectory length and overlap ratio, while preventing the formation of coverage holes. Finally, C* is evaluated on two different applications of CPP using 1) energy-constrained robots and 2) multi-robot teams.

arxiv情報

著者 Zongyuan Shen,James P. Wilson,Shalabh Gupta
発行日 2025-05-20 00:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | C*: A Coverage Path Planning Algorithm for Unknown Environments using Rapidly Covering Graphs はコメントを受け付けていません

RoCoDA: Counterfactual Data Augmentation for Data-Efficient Robot Learning from Demonstrations

要約

ロボット工学の模倣学習は、ロボット環境の複雑さとデータ収集のコストが高いため、一般化の重要な課題に直面しています。
Rocodaを紹介します。Rocodaは、単一のフレームワーク内で不変性、同等性、因果関係の概念を統合して、模倣学習のためのデータ増強を強化する新しい方法を統合します。
Rocodaは、ポリシーの出力に影響を与えることなく、環境状態のタスクに関係のあるサブセットを変更することにより、因果不変性を活用します。
同時に、剛体変換をオブジェクトのポーズに適用し、対応するアクションを調整して合成デモンストレーションを生成することにより、SE(3)等回を活用します。
5つのロボット操作タスクに関する広範な実験を通じてRocodaを検証し、最先端のデータ増強方法と比較して、ポリシーのパフォーマンス、一般化、およびサンプル効率の改善を実証します。
私たちのポリシーは、目に見えないオブジェクトのポーズ、テクスチャ、およびディストラクタの存在に堅牢な一般化を示します。
さらに、Regraspingなどの緊急行動が観察され、Rocodaで訓練されたポリシーがタスクのダイナミクスをより深く理解していることを示しています。
Rocodaは、不変性、同時性、因果関係を活用することにより、模倣学習におけるデータ増強に対する原則的なアプローチを提供し、幾何学的対称性と因果推論の間のギャップを埋めます。
プロジェクトページ:https://rocoda.github.io

要約(オリジナル)

Imitation learning in robotics faces significant challenges in generalization due to the complexity of robotic environments and the high cost of data collection. We introduce RoCoDA, a novel method that unifies the concepts of invariance, equivariance, and causality within a single framework to enhance data augmentation for imitation learning. RoCoDA leverages causal invariance by modifying task-irrelevant subsets of the environment state without affecting the policy’s output. Simultaneously, we exploit SE(3) equivariance by applying rigid body transformations to object poses and adjusting corresponding actions to generate synthetic demonstrations. We validate RoCoDA through extensive experiments on five robotic manipulation tasks, demonstrating improvements in policy performance, generalization, and sample efficiency compared to state-of-the-art data augmentation methods. Our policies exhibit robust generalization to unseen object poses, textures, and the presence of distractors. Furthermore, we observe emergent behavior such as re-grasping, indicating policies trained with RoCoDA possess a deeper understanding of task dynamics. By leveraging invariance, equivariance, and causality, RoCoDA provides a principled approach to data augmentation in imitation learning, bridging the gap between geometric symmetries and causal reasoning. Project Page: https://rocoda.github.io

arxiv情報

著者 Ezra Ameperosa,Jeremy A. Collins,Mrinal Jain,Animesh Garg
発行日 2025-05-20 01:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | RoCoDA: Counterfactual Data Augmentation for Data-Efficient Robot Learning from Demonstrations はコメントを受け付けていません

Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams

要約

脚のあるロボット間で調整されたチームワークを達成するには、きめ細かい運動制御と長老の戦略的意思決定の両方が必要です。
ロボットサッカーは、このチャレンジの説得力のあるテストベッドを提供し、動的、競争力、およびマルチエージェントの相互作用を組み合わせています。
この作業では、完全に自律的で分散化された四足動物サッカーを可能にする階層的なマルチエージェント補強学習(MARL)フレームワークを紹介します。
まず、一連の非常にダイナミックな低レベルのスキルが、歩行、ドリブル、キッキングなどの足の移動とボール操作のために訓練されています。
これらに加えて、高レベルの戦略的計画ポリシーは、架空の自己プレイ(FSP)を介して多象徴的な近位政策最適化(MAPPO)で訓練されています。
この学習フレームワークにより、エージェントは多様な相手戦略に適応し、調整された合格、傍受、動的な役割の割り当てなど、洗練されたチームの行動を引き起こします。
広範なアブレーション研究により、提案された学習方法は、協同組合で競争力のあるマルチエージェントサッカーゲームに大きな利点を示しています。
屋内および屋外のサッカーコートでの自律的なロボットロボットとロボットヒューマンサッカーの試合をサポートする、結果として生じるシステムがオンボードの固有受容と分散型ローカリゼーションのみに依存して、学んだポリシーを実際の四足動物に展開します。

要約(オリジナル)

Achieving coordinated teamwork among legged robots requires both fine-grained locomotion control and long-horizon strategic decision-making. Robot soccer offers a compelling testbed for this challenge, combining dynamic, competitive, and multi-agent interactions. In this work, we present a hierarchical multi-agent reinforcement learning (MARL) framework that enables fully autonomous and decentralized quadruped robot soccer. First, a set of highly dynamic low-level skills is trained for legged locomotion and ball manipulation, such as walking, dribbling, and kicking. On top of these, a high-level strategic planning policy is trained with Multi-Agent Proximal Policy Optimization (MAPPO) via Fictitious Self-Play (FSP). This learning framework allows agents to adapt to diverse opponent strategies and gives rise to sophisticated team behaviors, including coordinated passing, interception, and dynamic role allocation. With an extensive ablation study, the proposed learning method shows significant advantages in the cooperative and competitive multi-agent soccer game. We deploy the learned policies to real quadruped robots relying solely on onboard proprioception and decentralized localization, with the resulting system supporting autonomous robot-robot and robot-human soccer matches on indoor and outdoor soccer courts.

arxiv情報

著者 Zhi Su,Yuman Gao,Emily Lukas,Yunfei Li,Jiaze Cai,Faris Tulbah,Fei Gao,Chao Yu,Zhongyu Li,Yi Wu,Koushil Sreenath
発行日 2025-05-20 02:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams はコメントを受け付けていません

Duawlfin: A Drone with Unified Actuation for Wheeled Locomotion and Flight Operation

要約

このペーパーでは、効率的で双方向の地上移動度を達成する車輪付きの移動と飛行操作のための統一された作動を備えたドローンであるDuawlfinを紹介します。
既存のハイブリッド設計とは異なり、Duawlfinは、標準の四角いモーターのみを活用し、一方向のベアリングを備えた微分ドライブトレインを導入することにより、追加のアクチュエーターまたはプロペラ駆動型の地上推進の必要性を排除します。
このイノベーションは、機械システムを簡素化し、エネルギーの使用量を大幅に削減し、センサーとのほこり干渉など、地面の近くで回転するプロペラによって引き起こされる妨害を防ぎます。
その上、一方向のベアリングは、地上モードのモーターからプロペラへの電力伝達を最小限に抑え、車両が人間の近くで安全に動作できるようにします。
詳細な機械設計、迅速かつスムーズモードの遷移のための現在の制御戦略を提供し、広範な実験テストを通じて概念を検証します。
フライトモードテストでは、従来のクワッドコプターに匹敵する安定した空中性能が確認されますが、地上モードの実験は効率的な勾配上昇(最大30 {\ deg})と1Gの横方向の加速に近づくアジャイル回転操作を示します。
空中モードと地上モードの間のシームレスな遷移は、都市物流や屋内ナビゲーションなどのアプリケーションのアプローチの実用性と有効性をさらに強調しています。
3-Dモデルファイル、デモンストレーションビデオ、その他の資産を含むすべての資料は、https://sites.google.com/view/duawlfinでオープンソースを受けています。

要約(オリジナル)

This paper presents Duawlfin, a drone with unified actuation for wheeled locomotion and flight operation that achieves efficient, bidirectional ground mobility. Unlike existing hybrid designs, Duawlfin eliminates the need for additional actuators or propeller-driven ground propulsion by leveraging only its standard quadrotor motors and introducing a differential drivetrain with one-way bearings. This innovation simplifies the mechanical system, significantly reduces energy usage, and prevents the disturbance caused by propellers spinning near the ground, such as dust interference with sensors. Besides, the one-way bearings minimize the power transfer from motors to propellers in the ground mode, which enables the vehicle to operate safely near humans. We provide a detailed mechanical design, present control strategies for rapid and smooth mode transitions, and validate the concept through extensive experimental testing. Flight-mode tests confirm stable aerial performance comparable to conventional quadcopters, while ground-mode experiments demonstrate efficient slope climbing (up to 30{\deg}) and agile turning maneuvers approaching 1g lateral acceleration. The seamless transitions between aerial and ground modes further underscore the practicality and effectiveness of our approach for applications like urban logistics and indoor navigation. All the materials including 3-D model files, demonstration video and other assets are open-sourced at https://sites.google.com/view/Duawlfin.

arxiv情報

著者 Jerry Tang,Ruiqi Zhang,Kaan Beyduz,Yiwei Jiang,Cody Wiebe,Haoyu Zhang,Osaruese Asoro,Mark W. Mueller
発行日 2025-05-20 02:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Duawlfin: A Drone with Unified Actuation for Wheeled Locomotion and Flight Operation はコメントを受け付けていません

Enhancing Robot Navigation Policies with Task-Specific Uncertainty Managements

要約

複雑な環境をナビゲートするロボットは、センサーノイズ、環境の変化、不完全な情報から不確実性を管理する必要があり、さまざまなレベルの精度を必要とするさまざまなタスクを備えています。
たとえば、正確なローカリゼーションは障害物の近くで重要である可能性がありますが、オープンスペースではそれほど重要ではありません。
ガイド(意思決定と実行のための一般化された不確実性統合)を提示します。これは、タスク固有の不確実性マップ(TSUM)を介してこれらのタスク固有の要件をナビゲーションポリシーに統合するフレームワークです。
許容可能な不確実性レベルをさまざまな場所に割り当てることにより、TSUMはロボットがコンテキストに基づいて不確実性管理を適応させることができます。
強化学習と組み合わせると、ガイドは、広範な報酬エンジニアリングなしでタスクの完了と不確実性管理のバランスをとるポリシーを学びます。
現実世界のテストは、タスク固有の不確実性の認識を欠く方法に対して大幅なパフォーマンスの向上を示しています。

要約(オリジナル)

Robots navigating complex environments must manage uncertainty from sensor noise, environmental changes, and incomplete information, with different tasks requiring varying levels of precision in different areas. For example, precise localization may be crucial near obstacles but less critical in open spaces. We present GUIDE (Generalized Uncertainty Integration for Decision-Making and Execution), a framework that integrates these task-specific requirements into navigation policies via Task-Specific Uncertainty Maps (TSUMs). By assigning acceptable uncertainty levels to different locations, TSUMs enable robots to adapt uncertainty management based on context. When combined with reinforcement learning, GUIDE learns policies that balance task completion and uncertainty management without extensive reward engineering. Real-world tests show significant performance gains over methods lacking task-specific uncertainty awareness.

arxiv情報

著者 Gokul Puthumanaillam,Paulo Padrao,Jose Fuentes,Leonardo Bobadilla,Melkior Ornik
発行日 2025-05-20 02:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Enhancing Robot Navigation Policies with Task-Specific Uncertainty Managements はコメントを受け付けていません

Reachability Barrier Networks: Learning Hamilton-Jacobi Solutions for Smooth and Flexible Control Barrier Functions

要約

自律運転とロボット工学の最近の開発は、安全性の高いコントローラーの必要性を強調しています。
コントロールバリア関数(CBFS)は、一般的な制御フレームワークに安全保証を追加するための一般的な方法ですが、低次元を超えて生成することは困難であることで有名です。
既存の方法は、しばしば、完全性を欠く非分化不可能または不正確な近似を生成し、したがって安全を確保できません。
この作業では、Hamilton-Jacobi(HJ)最適な制御ソリューションを計算することにより、物理学に基づいたニューラルネットワーク(PINNS)を使用して、CBFのスムーズな近似を生成します。
これらの到達可能性バリアネットワーク(RBN)は、従来の次元の制約を回避し、パラメーター化された割引項を通じてトレーニング後の保守性の調整をサポートします。
割引ソリューションの堅牢性を確保するために、RBNの確率的安全保証を導き出すために、コンフォーマル予測方法を活用します。
RBNは低次元で非常に正確であり、高次元での標準的なニューラルCBFアプローチよりも安全であることを実証します。
つまり、9Dマルチベヒクルの衝突回避問題でRBNを紹介します。そこでは、神経CBFよりも5.5倍安全で1.9倍保守的であることが実証されており、一般的な非線形自律システムのCBFSを合成する有望な方法を提供します。

要約(オリジナル)

Recent developments in autonomous driving and robotics underscore the necessity of safety-critical controllers. Control barrier functions (CBFs) are a popular method for appending safety guarantees to a general control framework, but they are notoriously difficult to generate beyond low dimensions. Existing methods often yield non-differentiable or inaccurate approximations that lack integrity, and thus fail to ensure safety. In this work, we use physics-informed neural networks (PINNs) to generate smooth approximations of CBFs by computing Hamilton-Jacobi (HJ) optimal control solutions. These reachability barrier networks (RBNs) avoid traditional dimensionality constraints and support the tuning of their conservativeness post-training through a parameterized discount term. To ensure robustness of the discounted solutions, we leverage conformal prediction methods to derive probabilistic safety guarantees for RBNs. We demonstrate that RBNs are highly accurate in low dimensions, and safer than the standard neural CBF approach in high dimensions. Namely, we showcase the RBNs in a 9D multi-vehicle collision avoidance problem where it empirically proves to be 5.5x safer and 1.9x less conservative than the neural CBFs, offering a promising method to synthesize CBFs for general nonlinear autonomous systems.

arxiv情報

著者 Matthew Kim,William Sharpless,Hyun Joe Jeong,Sander Tonkens,Somil Bansal,Sylvia Herbert
発行日 2025-05-20 02:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reachability Barrier Networks: Learning Hamilton-Jacobi Solutions for Smooth and Flexible Control Barrier Functions はコメントを受け付けていません

Learning to Group and Grasp Multiple Objects

要約

同時に、複数のオブジェクトを把握して配信すると、ロボットの作業効率を大幅に向上させることができ、何十年もの間重要な研究焦点となっています。
主な課題は、オブジェクトの分布とロボットのハードウェア制約を検討しながら、オブジェクトをプッシュし、グループをグループ化し、それぞれのグループの同時把持を実行する方法を決定することにあります。
従来のルールベースの方法は、多様なシナリオに柔軟に適応するのに苦労しています。
この課題に対処するために、このペーパーでは、模倣学習ベースのアプローチを提案しています。
テレオ操作を通じて一連の専門家のデモを収集し、拡散ポリシーネットワークを訓練し、ロボットがプッシュ、グループ化、把握のためのアクションシーケンスを動的に生成できるようにし、それにより効率的なマルチオブジェクトのグレイズと配信を促進します。
さまざまなトレーニングデータセットサイズ、さまざまなオブジェクト数量、および実際のオブジェクトシナリオの下でメソッドを評価するための実験を実施しました。
結果は、提案されたアプローチがマルチオブジェクトのグループ化と把握戦略を効果的かつ適応的に生成できることを示しています。
より多くのトレーニングデータをサポートすることで、模倣学習は、マルチオブジェクトの把握問題を解決するための効果的なアプローチになると予想されます。

要約(オリジナル)

Simultaneously grasping and delivering multiple objects can significantly enhance robotic work efficiency and has been a key research focus for decades. The primary challenge lies in determining how to push objects, group them, and execute simultaneous grasping for respective groups while considering object distribution and the hardware constraints of the robot. Traditional rule-based methods struggle to flexibly adapt to diverse scenarios. To address this challenge, this paper proposes an imitation learning-based approach. We collect a series of expert demonstrations through teleoperation and train a diffusion policy network, enabling the robot to dynamically generate action sequences for pushing, grouping, and grasping, thereby facilitating efficient multi-object grasping and delivery. We conducted experiments to evaluate the method under different training dataset sizes, varying object quantities, and real-world object scenarios. The results demonstrate that the proposed approach can effectively and adaptively generate multi-object grouping and grasping strategies. With the support of more training data, imitation learning is expected to be an effective approach for solving the multi-object grasping problem.

arxiv情報

著者 Takahiro Yonemaru,Weiwei Wan,Tatsuki Nishimura,Kensuke Harada
発行日 2025-05-20 02:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning to Group and Grasp Multiple Objects はコメントを受け付けていません

Safety2Drive: Safety-Critical Scenario Benchmark for the Evaluation of Autonomous Driving

要約

自律運転(AD)システムには、高レベルの安全保証が必要です。
Longest6やBench2Driveなどのオープンソースベンチマークで実証されたADの大幅な進歩にもかかわらず、既存のデータセットには、ADの機能的安全性を包括的に評価するための閉ループテストのための規制に準拠したシナリオライブラリがまだありません。
一方、現実世界の広告事故は、現在の駆動データセットで過小評価されています。
この希少性は、広告パフォーマンスの不十分な評価につながり、安全検証と実際の展開にリスクをもたらします。
これらの課題に対処するために、広告システムを評価するために設計された安全性が批判的なシナリオライブラリであるSafety2Driveを提案します。
Safety2Driveは3つの重要な貢献を提供します。
(1)Safety2Driveは、標準規制で必要なテスト項目を包括的にカバーし、70のAD機能テスト項目を含んでいます。
(2)Safety2Driveは、安全性の高いシナリオの一般化をサポートします。
自然環境の腐敗や敵対的な攻撃などの安全性の脅威を注入する能力があります。
(3)Safety2Driveは多次元評価をサポートします。
ADシステムの評価に加えて、オブジェクト検出やレーン検出など、さまざまな知覚タスクの評価もサポートしています。
Safety2Driveは、シナリオ構築から検証までのパラダイムを提供し、ADの安全な展開のための標準化されたテストフレームワークを確立します。

要約(オリジナル)

Autonomous Driving (AD) systems demand the high levels of safety assurance. Despite significant advancements in AD demonstrated on open-source benchmarks like Longest6 and Bench2Drive, existing datasets still lack regulatory-compliant scenario libraries for closed-loop testing to comprehensively evaluate the functional safety of AD. Meanwhile, real-world AD accidents are underrepresented in current driving datasets. This scarcity leads to inadequate evaluation of AD performance, posing risks to safety validation and practical deployment. To address these challenges, we propose Safety2Drive, a safety-critical scenario library designed to evaluate AD systems. Safety2Drive offers three key contributions. (1) Safety2Drive comprehensively covers the test items required by standard regulations and contains 70 AD function test items. (2) Safety2Drive supports the safety-critical scenario generalization. It has the ability to inject safety threats such as natural environment corruptions and adversarial attacks cross camera and LiDAR sensors. (3) Safety2Drive supports multi-dimensional evaluation. In addition to the evaluation of AD systems, it also supports the evaluation of various perception tasks, such as object detection and lane detection. Safety2Drive provides a paradigm from scenario construction to validation, establishing a standardized test framework for the safe deployment of AD.

arxiv情報

著者 Jingzheng Li,Tiancheng Wang,Xingyu Peng,Jiacheng Chen,Zhijun Chen,Bing Li,Xianglong Liu
発行日 2025-05-20 03:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Safety2Drive: Safety-Critical Scenario Benchmark for the Evaluation of Autonomous Driving はコメントを受け付けていません

InSpire: Vision-Language-Action Models with Intrinsic Spatial Reasoning

要約

言語命令と視覚的観測を生の低レベルのアクションにマッピングするために、視覚的命令と視覚的観測をマッピングするために、視覚言語アクションモデル(VLA)を活用するために、汎用ロボットシステムを達成するための大きな見込みがあります。
彼らの進歩にもかかわらず、既存のVLAは、タスクに関係のある視覚的特徴をアクションと微妙に相関させる傾向があり、トレーニングデータを超えて一般化能力を制限します。
この課題に取り組むために、VLAの空間推論能力を高めることにより、偽の相関の悪影響を軽減するシンプルで効果的なアプローチである、本質的な空間推論(Inspire)を提案します。
具体的には、Inspireは、「ロボットに対する[オブジェクト]はどの方向にあるのか」という質問を準備することにより、タスク関連要因へのVLAの注意をリダイレクトします。
言語の指示と、「右/左/左/下/フロント/バック/グラスト」との答えを調整し、グラウンド・トゥルースを使用してアクションを予測します。
特に、Inspireは既存の自己回帰VLAを強化するためのプラグインとして使用できます。これは、追加のトレーニングデータや他の大規模なモデルとのやり取りを必要としません。
シミュレーションと現実世界の環境の両方における広範な実験結果は、アプローチの有効性と柔軟性を示しています。
当社のコード、前提条件のモデル、およびデモは、https://koorye.github.io/proj/inspireで公開されています。

要約(オリジナル)

Leveraging pretrained Vision-Language Models (VLMs) to map language instruction and visual observations to raw low-level actions, Vision-Language-Action models (VLAs) hold great promise for achieving general-purpose robotic systems. Despite their advancements, existing VLAs tend to spuriously correlate task-irrelevant visual features with actions, limiting their generalization capacity beyond the training data. To tackle this challenge, we propose Intrinsic Spatial Reasoning (InSpire), a simple yet effective approach that mitigates the adverse effects of spurious correlations by boosting the spatial reasoning ability of VLAs. Specifically, InSpire redirects the VLA’s attention to task-relevant factors by prepending the question ‘In which direction is the [object] relative to the robot?’ to the language instruction and aligning the answer ‘right/left/up/down/front/back/grasped’ and predicted actions with the ground-truth. Notably, InSpire can be used as a plugin to enhance existing autoregressive VLAs, requiring no extra training data or interaction with other large models. Extensive experimental results in both simulation and real-world environments demonstrate the effectiveness and flexibility of our approach. Our code, pretrained models and demos are publicly available at: https://Koorye.github.io/proj/Inspire.

arxiv情報

著者 Ji Zhang,Shihan Wu,Xu Luo,Hao Wu,Lianli Gao,Heng Tao Shen,Jingkuan Song
発行日 2025-05-20 03:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | InSpire: Vision-Language-Action Models with Intrinsic Spatial Reasoning はコメントを受け付けていません

Certifiably Safe Manipulation of Deformable Linear Objects via Joint Shape and Tension Prediction

要約

変形可能な線形オブジェクト(DLOS)を操作することは、複雑なダイナミクスと接触リッチ環境での安全な相互作用の必要性のために困難です。
ほとんどの既存のモデルは、形状予測のみに焦点を当てており、接触と緊張の制約を説明できず、DLOとロボットの両方に損傷を与える可能性があります。
この作業では、DLO操作のための証明的に安全なモーションプランニングおよび制御フレームワークを提案します。
私たちの方法の中核は、DLOの将来の形と緊張を共同で推定する予測モデルです。
これらの予測は、多項式ゾノトープに基づいたリアルタイムの軌跡オプティマイザーに統合されているため、実行中の安全性の制約を実施することができます。
7-DOFロボットアームを使用して、シミュレートされたワイヤハーネスアセンブリタスクでフレームワークを評価します。
最先端の方法と比較して、私たちのアプローチは、すべての安全違反を避けながら、より高いタスクの成功率を達成します。
結果は、私たちの方法が接触豊富な環境で堅牢で安全なDLO操作を可能にすることを示しています。

要約(オリジナル)

Manipulating deformable linear objects (DLOs) is challenging due to their complex dynamics and the need for safe interaction in contact-rich environments. Most existing models focus on shape prediction alone and fail to account for contact and tension constraints, which can lead to damage to both the DLO and the robot. In this work, we propose a certifiably safe motion planning and control framework for DLO manipulation. At the core of our method is a predictive model that jointly estimates the DLO’s future shape and tension. These predictions are integrated into a real-time trajectory optimizer based on polynomial zonotopes, allowing us to enforce safety constraints throughout the execution. We evaluate our framework on a simulated wire harness assembly task using a 7-DOF robotic arm. Compared to state-of-the-art methods, our approach achieves a higher task success rate while avoiding all safety violations. The results demonstrate that our method enables robust and safe DLO manipulation in contact-rich environments.

arxiv情報

著者 Yiting Zhang,Shichen Li
発行日 2025-05-20 03:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Certifiably Safe Manipulation of Deformable Linear Objects via Joint Shape and Tension Prediction はコメントを受け付けていません