External-Wrench Estimation for Aerial Robots Exploiting a Learned Model

要約

このペーパーでは、第一原理モデルとニューラルネットワークで構成されるハイブリッドダイナミクスモデルを使用する外部レンチ推定器を紹介します。
このフレームワークは、最先端のモデルベースのレンチオブザーバーの制限の1つに対処します。これらのオブザーバーのレンチの推定は、外部レンチ(衝突、物理的相互作用、風)で構成されています。
残留レンチに加えて(例:モデルパラメーターの不確実性またはモデルのダイナミクスなど)。
これは、これらのレンチの推定が、たとえばフォースコントローラーへのレンチフィードバックとして使用される場合、問題です。
提案されたフレームワークでは、ニューラルネットワークを第一原理モデルと組み合わせて、モデルのダイナミクスとパラメーターの不確実性から生じる残留ダイナミクスを推定します。その後、ハイブリッドトレーニングモデルを使用して、外部レンチを推定するために使用され、残留ダイナミクスからの寄付が少なくなり、外部レンチによって影響を受けます。
この方法は、さまざまな飛行シナリオおよびさまざまなタイプの残留ダイナミクスでの空中ロボットの数値シミュレーションで検証されており、結果の統計分析は、第一原理モデルのみを使用してモデルベースのレンチオブザーバーと比較してレンチ推定誤差が大幅に改善されたことを示しています。

要約(オリジナル)

This paper presents an external wrench estimator that uses a hybrid dynamics model consisting of a first-principles model and a neural network. This framework addresses one of the limitations of the state-of-the-art model-based wrench observers: the wrench estimation of these observers comprises the external wrench (e.g. collision, physical interaction, wind); in addition to residual wrench (e.g. model parameters uncertainty or unmodeled dynamics). This is a problem if these wrench estimations are to be used as wrench feedback to a force controller, for example. In the proposed framework, a neural network is combined with a first-principles model to estimate the residual dynamics arising from unmodeled dynamics and parameters uncertainties, then, the hybrid trained model is used to estimate the external wrench, leading to a wrench estimation that has smaller contributions from the residual dynamics, and affected more by the external wrench. This method is validated with numerical simulations of an aerial robot in different flying scenarios and different types of residual dynamics, and the statistical analysis of the results shows that the wrench estimation error has improved significantly compared to a model-based wrench observer using only a first-principles model.

arxiv情報

著者 Ayham Alharbat,Gabriele Ruscelli,Roberto Diversi,Abeje Mersha
発行日 2025-04-10 22:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | External-Wrench Estimation for Aerial Robots Exploiting a Learned Model はコメントを受け付けていません

PACER: Preference-conditioned All-terrain Costmap Generation

要約

自律的なロボットナビゲーションでは、地形が事前に訓練されたセマンティック分類器を使用して最初にラベル付けされ、ラベルとコストの間のユーザー定義のマッピングに従って、地形が最初にラベル付けされるセマンティクスベースのパラダイムを使用して、地形コストの割り当てが通常実行されます。
このアプローチは、ユーザーの好みの変化に急速に適応できますが、セマンティック分類器によって既に知られている地形の種類に対する設定のみを表現できます。
この論文では、上記のセマンティクスベースのパラダイムに代わる機械学習ベースの代替案により、追加のトレーニングを必要とせずに展開時間に表明された新しい地形よりも迅速なコスト割り当ての適応が可能になると仮定します。
この仮説を調査するために、ペーサーを紹介し、研究します。これは、ユーザー指定の好みのコンテキストとともに、周囲の領域の単一の鳥目ビュー(BEV)画像を入力として受け入れるコストマップ生成への新しいアプローチと、優先コンテキストと一致する対応するBEVコスマップを生成します。
実際のデータと合成データの両方を使用して、提案されたトレーニングタスクの組み合わせを使用して、Pacerは新しいユーザーの好みに迅速に適応できると同時に、セマンティクスベースと表現学習アプローチの両方と比較して、新しい地形により良い一般化を示すことができます。

要約(オリジナル)

In autonomous robot navigation, terrain cost assignment is typically performed using a semantics-based paradigm in which terrain is first labeled using a pre-trained semantic classifier and costs are then assigned according to a user-defined mapping between label and cost. While this approach is rapidly adaptable to changing user preferences, only preferences over the types of terrain that are already known by the semantic classifier can be expressed. In this paper, we hypothesize that a machine-learning-based alternative to the semantics-based paradigm above will allow for rapid cost assignment adaptation to preferences expressed over new terrains at deployment time without the need for additional training. To investigate this hypothesis, we introduce and study PACER, a novel approach to costmap generation that accepts as input a single birds-eye view (BEV) image of the surrounding area along with a user-specified preference context and generates a corresponding BEV costmap that aligns with the preference context. Using both real and synthetic data along with a combination of proposed training tasks, we find that PACER is able to adapt quickly to new user preferences while also exhibiting better generalization to novel terrains compared to both semantics-based and representation-learning approaches.

arxiv情報

著者 Luisa Mao,Garrett Warnell,Peter Stone,Joydeep Biswas
発行日 2025-04-10 23:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PACER: Preference-conditioned All-terrain Costmap Generation はコメントを受け付けていません

Maintaining Strong r-Robustness in Reconfigurable Multi-Robot Networks using Control Barrier Functions

要約

リーダーフォロワーのコンセンサスでは、通信グラフの強いRの強さは、フォロワーが不正行為エージェントの存在下でコンセンサスを達成するのに十分な条件を提供します。
以前の研究では、ロボットが既知の堅牢性特性を持つ所定のネットワークトポロジを形成および/または切り替えることができると想定しています。
ただし、距離ベースの通信モデルを備えたロボットは、目標を完了するために、狭い廊下などの空間的に制約された環境を移動しながら、これらのトポロジを達成できない場合があります。
このペーパーでは、固定トポロジを維持せずにロボットが特定のしきい値を超えて通信グラフの強いRの堅牢性を保証するコントロールバリア関数(CBF)を紹介します。
当社のCBFは堅牢性に直接対処し、ロボットが目標を達成するためにナビゲートしながら、柔軟な再構成可能なネットワーク構造を持つことができます。
この方法の有効性は、さまざまなシミュレーションおよびハードウェア実験を通じてテストされます。

要約(オリジナル)

In leader-follower consensus, strong r-robustness of the communication graph provides a sufficient condition for followers to achieve consensus in the presence of misbehaving agents. Previous studies have assumed that robots can form and/or switch between predetermined network topologies with known robustness properties. However, robots with distance-based communication models may not be able to achieve these topologies while moving through spatially constrained environments, such as narrow corridors, to complete their objectives. This paper introduces a Control Barrier Function (CBF) that ensures robots maintain strong r-robustness of their communication graph above a certain threshold without maintaining any fixed topologies. Our CBF directly addresses robustness, allowing robots to have flexible reconfigurable network structure while navigating to achieve their objectives. The efficacy of our method is tested through various simulation and hardware experiments.

arxiv情報

著者 Haejoon Lee,Dimitra Panagou
発行日 2025-04-10 23:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Maintaining Strong r-Robustness in Reconfigurable Multi-Robot Networks using Control Barrier Functions はコメントを受け付けていません

Distributed Resilience-Aware Control in Multi-Robot Networks

要約

多くの既存のネットワークの回復力プロパティは本質的に組み合わせで、グローバルに定義されているため、不正行為エージェントを備えたマルチロボットシステムでの回復力のあるコンセンサスを確保することは依然として課題です。
以前の作品は、マルチロボットネットワークの回復力を強化または保存するための管理法を提案していますが、多くの場合、既知の回復力特性を持つ固定トポロジを想定しているか、グローバルな州の知識を必要とします。
これらの仮定は、安全性と回復力の要件が矛盾している物理的に制約されている環境では非現実的である可能性があります。
この作業では、各ロボットがローカルで利用可能な情報のみを使用して固定トポロジーなしで、ナビゲーション中に回復力のあるコンセンサスと安全性を保証できるようにする分散制御法を提案します。
この目的のために、私たちは、非発見または正常なエージェントの程度に基づいて、時変ネットワークにおける回復力のあるコンセンサスのための新しい十分な条件を確立します。
この状態を使用して、他のすべてのロボットのグローバルな状態および/または制御アクションの推定値を必要とせずに、回復力のあるコンセンサスと衝突回避を保証するコントロールバリア関数(CBF)ベースのコントローラーを設計します。
最後に、シミュレーションを通じてメソッドを検証します。

要約(オリジナル)

Ensuring resilient consensus in multi-robot systems with misbehaving agents remains a challenge, as many existing network resilience properties are inherently combinatorial and globally defined. While previous works have proposed control laws to enhance or preserve resilience in multi-robot networks, they often assume a fixed topology with known resilience properties, or require global state knowledge. These assumptions may be impractical in physically-constrained environments, where safety and resilience requirements are conflicting, or when misbehaving agents corrupt the shared information. In this work, we propose a distributed control law that enables each robot to guarantee resilient consensus and safety during its navigation without fixed topologies using only locally available information. To this end, we establish a new sufficient condition for resilient consensus in time-varying networks based on the degree of non-misbehaving or normal agents. Using this condition, we design a Control Barrier Function (CBF)-based controller that guarantees resilient consensus and collision avoidance without requiring estimates of global state and/or control actions of all other robots. Finally, we validate our method through simulations.

arxiv情報

著者 Haejoon Lee,Dimitra Panagou
発行日 2025-04-10 23:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Distributed Resilience-Aware Control in Multi-Robot Networks はコメントを受け付けていません

Enhanced Cooperative Perception Through Asynchronous Vehicle to Infrastructure Framework with Delay Mitigation for Connected and Automated Vehicles

要約

認識は、自動化された車両(AVS)の重要なコンポーネントです。
ただし、AVSに取り付けられたセンサーは、周辺地域の他の車両、インフラストラクチャ、またはオブジェクトからの障害により、多くの場合、死角に遭遇します。
計画および制御アルゴリズムの最近の進歩は、AVSが低速での盲点からの突然のオブジェクトの外観に反応するのに役立ちますが、課題は高速と複雑な交差点のままです。
車両からインフラストラクチャ(V2I)テクノロジーは、複雑な交差点でAVSのシーン表現を強化することを約束し、交通規則に違反する敵車両に十分な時間と距離を提供します。
インフラストラクチャベースの車両の検出と追跡のための既存の方法のほとんどは、Lidar-CameraやRadar-CameraなどのLidar、レーダー、またはセンサー融合方法に依存しています。
Lidarとレーダーは正確な空間情報を提供しますが、ポイントクラウドデータのスパース性により、遠く離れたオブジェクトの詳細なオブジェクトの輪郭をキャプチャする能力が制限され、3Dオブジェクト検出結果が不正確になります。
さらに、あらゆる交差点にLIDARまたはレーダーが存在しないと、V2Iテクノロジーの実装コストが増加します。
これらの課題に対処するために、このペーパーでは、3Dオブジェクトを検出するために道路交差点で単眼の交通カメラを利用するV2Iフレームワークを提案します。
次に、道端のユニット(RSU)の結果は、非同期後期融合法を使用してシーンの表現を強化するためにオンボードシステムと組み合わされます。
さらに、提案されたフレームワークは、RSUからの処理と送信の遅延を補うための時間遅延補償モジュールを提供します。
最後に、V2Iフレームワークは、WAYMOの業界レポートで説明されているシナリオと同様のシナリオをシミュレートおよび検証することによりテストされます。
結果は、提案された方法がシーンの表現とAVの知覚範囲を改善し、敵車両に反応するのに十分な時間とスペースを与えることを示しています。

要約(オリジナル)

Perception is a key component of Automated vehicles (AVs). However, sensors mounted to the AVs often encounter blind spots due to obstructions from other vehicles, infrastructure, or objects in the surrounding area. While recent advancements in planning and control algorithms help AVs react to sudden object appearances from blind spots at low speeds and less complex scenarios, challenges remain at high speeds and complex intersections. Vehicle to Infrastructure (V2I) technology promises to enhance scene representation for AVs in complex intersections, providing sufficient time and distance to react to adversary vehicles violating traffic rules. Most existing methods for infrastructure-based vehicle detection and tracking rely on LIDAR, RADAR or sensor fusion methods, such as LIDAR-Camera and RADAR-Camera. Although LIDAR and RADAR provide accurate spatial information, the sparsity of point cloud data limits its ability to capture detailed object contours of objects far away, resulting in inaccurate 3D object detection results. Furthermore, the absence of LIDAR or RADAR at every intersection increases the cost of implementing V2I technology. To address these challenges, this paper proposes a V2I framework that utilizes monocular traffic cameras at road intersections to detect 3D objects. The results from the roadside unit (RSU) are then combined with the on-board system using an asynchronous late fusion method to enhance scene representation. Additionally, the proposed framework provides a time delay compensation module to compensate for the processing and transmission delay from the RSU. Lastly, the V2I framework is tested by simulating and validating a scenario similar to the one described in an industry report by Waymo. The results show that the proposed method improves the scene representation and the AV’s perception range, giving enough time and space to react to adversary vehicles.

arxiv情報

著者 Nithish Kumar Saravanan,Varun Jammula,Yezhou Yang,Jeffrey Wishart,Junfeng Zhao
発行日 2025-04-10 23:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhanced Cooperative Perception Through Asynchronous Vehicle to Infrastructure Framework with Delay Mitigation for Connected and Automated Vehicles はコメントを受け付けていません

Leveraging Passive Compliance of Soft Robotics for Physical Human-Robot Collaborative Manipulation

要約

この作業は、人間のパートナーとの長い拡張オブジェクトの物理的で共同作業操作を行う大規模なソフトロボットの初期ベンチマークを表しています。
ロボットは、オムニ方向のモバイルベースに取り付けられた空気圧で作動する、3リンクの連続体ソフトマニピュレーターで構成されています。
ロボットのシステムレベル構成と共同操作(共操作)研究の設計が提示されています。
定量的および定性的の両方の初期結果は、以前の類似の人間の共操作研究と直接比較されます。
これらの初期結果は、大規模なソフトロボットが、共操作タスクで非視覚的フォロワーとして行動する人間のパートナーと同等に機能する能力が有望であることを示しています。
さらに、これらの結果は、従来のソフトロボットの強度の制限に挑戦し、強度と適応性を必要とするアプリケーションの可能性を示しています。

要約(オリジナル)

This work represents an initial benchmark of a large-scale soft robot performing physical, collaborative manipulation of a long, extended object with a human partner. The robot consists of a pneumatically-actuated, three-link continuum soft manipulator mounted to an omni-directional mobile base. The system level configuration of the robot and design of the collaborative manipulation (co-manipulation) study are presented. The initial results, both quantitative and qualitative, are directly compared to previous similar human-human co-manipulation studies. These initial results show promise in the ability for large-scale soft robots to perform comparably to human partners acting as non-visual followers in a co-manipulation task. Furthermore, these results challenge traditional soft robot strength limitations and indicate potential for applications requiring strength and adaptability.

arxiv情報

著者 Dallin L. Cordon,Shaden Moss,Marc Killpack,John L. Salmon
発行日 2025-04-11 00:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leveraging Passive Compliance of Soft Robotics for Physical Human-Robot Collaborative Manipulation はコメントを受け付けていません

II-NVM: Enhancing Map Accuracy and Consistency with Normal Vector-Assisted Mapping

要約

SLAMテクノロジーは、屋内マッピングとローカリゼーションにおいて重要な役割を果たしています。
屋内環境での一般的な課題は、「両面マッピングの問題」です。この壁、ドア、その他の表面は、単一の平面と誤って識別され、マップの精度と一貫性を大幅に妨げます。
この問題に対処するために、このペーパーでは、通常のベクトルの一貫性を使用して正確なマッピングを保証するスラムアプローチを紹介します。
ボクセルマップ構造を強化して、ポイントクラウドデータと通常のベクトル情報の両方を保存し、最近傍検索とマップの更新中にシステムが一貫性を評価できるようにします。
このプロセスは、表面の前面と背面を区別し、ポイントツープレーンの制約が誤っていないことを防ぎます。
さらに、ポイントクラウドの局所密度に基づいて検索半径を動的に調整する適応半径KDツリー検索方法を実装し、それにより通常のベクター計算の精度を高めます。
リアルタイムのパフォーマンスとストレージの効率をさらに向上させるために、ボクセルマップの効率的な増分更新を容易にする最近使用された(LRU)キャッシュ戦略を組み込みます。
このコードはオープンソースとしてリリースされ、シミュレートされた環境と実際の屋内シナリオの両方で検証されています。
実験結果は、このアプローチが「両面マッピングの問題」を効果的に解決し、マッピング精度を大幅に改善することを示しています。
さらに、「両面マッピングの問題」に合わせて特別に調整された最初のシミュレーションと実世界のデータセットを開発およびオープンソーリングしました。

要約(オリジナル)

SLAM technology plays a crucial role in indoor mapping and localization. A common challenge in indoor environments is the ‘double-sided mapping issue’, where closely positioned walls, doors, and other surfaces are mistakenly identified as a single plane, significantly hindering map accuracy and consistency. To address this issue this paper introduces a SLAM approach that ensures accurate mapping using normal vector consistency. We enhance the voxel map structure to store both point cloud data and normal vector information, enabling the system to evaluate consistency during nearest neighbor searches and map updates. This process distinguishes between the front and back sides of surfaces, preventing incorrect point-to-plane constraints. Moreover, we implement an adaptive radius KD-tree search method that dynamically adjusts the search radius based on the local density of the point cloud, thereby enhancing the accuracy of normal vector calculations. To further improve realtime performance and storage efficiency, we incorporate a Least Recently Used (LRU) cache strategy, which facilitates efficient incremental updates of the voxel map. The code is released as open-source and validated in both simulated environments and real indoor scenarios. Experimental results demonstrate that this approach effectively resolves the ‘double-sided mapping issue’ and significantly improves mapping precision. Additionally, we have developed and open-sourced the first simulation and real world dataset specifically tailored for the ‘double-sided mapping issue’.

arxiv情報

著者 Chengwei Zhao,Yixuan Li,Yina Jian,Jie Xu,Linji Wang,Yongxin Ma,Xinglai Jin
発行日 2025-04-11 02:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | II-NVM: Enhancing Map Accuracy and Consistency with Normal Vector-Assisted Mapping はコメントを受け付けていません

E-3DGS: Gaussian Splatting with Exposure and Motion Events

要約

最適な条件下でキャプチャされた画像からの3D再構成を達成することは、ビジョンフィールドとイメージング分野で広く研究されています。
ただし、現実世界のシナリオでは、モーションブルールや照明が不十分な課題は、多くの場合、高品質の画像を提供する標準フレームベースのカメラの性能を制限します。
これらの制限に対処するために、ハードウェアレベルに送信調整デバイスを組み込み、イベントカメラが多様な3D再構成シナリオのモーションイベントと露出イベントの両方をキャプチャできるようにします。
モーションイベント(カメラまたはオブジェクトの動きによってトリガーされる)は、デバイスが非アクティブであるときに高速モーションシナリオで収集されますが、露出イベント(制御されたカメラ露出によって生成される)は、イベントベースの3D Gaussian Splatting(3DGS)の高品質のトレーニングと最適化のためにグレースケール画像を再構築するために、より遅い動きでキャプチャされます。
私たちのフレームワークは、露出イベントを使用した高品質の再構築、モーションイベントに依存する高速再構成、および初期露出イベントと高速モーションイベントのバランスの取れたハイブリッドの最適化の3つのモードをサポートしています。
eventnerfデータセットでは、露出イベントがモーションイベントと比較して細部の再構築を大幅に改善し、低照明や過剰露出などの困難な条件下でフレームベースのカメラを上回ることを実証します。
さらに、露出イベント、モーションイベント、カメラキャリブレーションパラメーター、およびスパースポイントクラウドを備えた実際の3DデータセットであるEME-3Dを紹介します。
私たちの方法は、イベントベースのNERFよりも高速かつ高品質の再構築を実現し、イベントとRGBデータを組み合わせた方法よりも費用対効果が高くなります。
E-3DGSは、困難な状況とハードウェアの需要の低下で堅牢なパフォーマンスを備えたイベントベースの3D再構成の新しいベンチマークを設定します。
ソースコードとデータセットは、https://github.com/masterhow/e-3dgsで入手できます。

要約(オリジナル)

Achieving 3D reconstruction from images captured under optimal conditions has been extensively studied in the vision and imaging fields. However, in real-world scenarios, challenges such as motion blur and insufficient illumination often limit the performance of standard frame-based cameras in delivering high-quality images. To address these limitations, we incorporate a transmittance adjustment device at the hardware level, enabling event cameras to capture both motion and exposure events for diverse 3D reconstruction scenarios. Motion events (triggered by camera or object movement) are collected in fast-motion scenarios when the device is inactive, while exposure events (generated through controlled camera exposure) are captured during slower motion to reconstruct grayscale images for high-quality training and optimization of event-based 3D Gaussian Splatting (3DGS). Our framework supports three modes: High-Quality Reconstruction using exposure events, Fast Reconstruction relying on motion events, and Balanced Hybrid optimizing with initial exposure events followed by high-speed motion events. On the EventNeRF dataset, we demonstrate that exposure events significantly improve fine detail reconstruction compared to motion events and outperform frame-based cameras under challenging conditions such as low illumination and overexposure. Furthermore, we introduce EME-3D, a real-world 3D dataset with exposure events, motion events, camera calibration parameters, and sparse point clouds. Our method achieves faster and higher-quality reconstruction than event-based NeRF and is more cost-effective than methods combining event and RGB data. E-3DGS sets a new benchmark for event-based 3D reconstruction with robust performance in challenging conditions and lower hardware demands. The source code and dataset will be available at https://github.com/MasterHow/E-3DGS.

arxiv情報

著者 Xiaoting Yin,Hao Shi,Yuhan Bao,Zhenshan Bing,Yiyi Liao,Kailun Yang,Kaiwei Wang
発行日 2025-04-11 02:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | E-3DGS: Gaussian Splatting with Exposure and Motion Events はコメントを受け付けていません

Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments

要約

ゼロショット設定の下で、連続環境(VLN-CE)におけるビジョン言語ナビゲーションのタスクに対処します。
ゼロショットVLN-CEは、ガイドナビゲーションの前にトレーニングのための専門家のデモがなく、環境構造を最小限に抑えているため、特に困難です。
これらの課題に立ち向かうために、ゼロショットVLN-CEを連続的な制約対応のサブインストラクション完了プロセスとして再構成する制約対応ナビゲーター(CA-NAV)を提案します。
CA-NAVは、2つのコアモジュールを使用して、サブインストラクションをナビゲーションプランに継続的に変換します:制約アウェアサブインストラクションマネージャー(CSM)と制約対応値マッパー(CVM)。
CSMは、分解されたサブインストラクションの完了基準を制約として定義し、サブインストラクションを制約対応方法で切り替えることにより、ナビゲーションの進行を追跡します。
CSMの制約に導かれたCVMは、その場でバリューマップを生成し、スーパーピクセルのクラスタリングを使用してナビゲーションの安定性を向上させます。
CA-NAVは、2つのVLN-CEベンチマークで最先端のパフォーマンスを達成し、それぞれR2R-CEとRXR-CEの検証が見えない分割の成功率が12%および13%を超えています。
さらに、Ca-Navは、さまざまな屋内シーンや指示にわたる実際のロボットの展開における有効性を示しています。

要約(オリジナル)

We address the task of Vision-Language Navigation in Continuous Environments (VLN-CE) under the zero-shot setting. Zero-shot VLN-CE is particularly challenging due to the absence of expert demonstrations for training and minimal environment structural prior to guide navigation. To confront these challenges, we propose a Constraint-Aware Navigator (CA-Nav), which reframes zero-shot VLN-CE as a sequential, constraint-aware sub-instruction completion process. CA-Nav continuously translates sub-instructions into navigation plans using two core modules: the Constraint-Aware Sub-instruction Manager (CSM) and the Constraint-Aware Value Mapper (CVM). CSM defines the completion criteria for decomposed sub-instructions as constraints and tracks navigation progress by switching sub-instructions in a constraint-aware manner. CVM, guided by CSM’s constraints, generates a value map on the fly and refines it using superpixel clustering to improve navigation stability. CA-Nav achieves the state-of-the-art performance on two VLN-CE benchmarks, surpassing the previous best method by 12 percent and 13 percent in Success Rate on the validation unseen splits of R2R-CE and RxR-CE, respectively. Moreover, CA-Nav demonstrates its effectiveness in real-world robot deployments across various indoor scenes and instructions.

arxiv情報

著者 Kehan Chen,Dong An,Yan Huang,Rongtao Xu,Yifei Su,Yonggen Ling,Ian Reid,Liang Wang
発行日 2025-04-11 03:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments はコメントを受け付けていません

CATCH-FORM-ACTer: Compliance-Aware Tactile Control and Hybrid Deformation Regulation-Based Action Transformer for Viscoelastic Object Manipulation

要約

剛性ロボットを使用した粘弾性オブジェクトの接触豊富な操作を自動化すると、動的なパラメーターの不一致、不安定な接触振動、空間的側力と力の結合などの課題に直面します。
以前の作業では、コンプライアンスを意識した触覚制御とハイブリッド変形調節(CATCH-FORM-3D)戦略は、接触力駆動型のアドミタンス外部ループとPDE測定内側ループを組み合わせて、サブミリメートル表面の変形を実現する3D粘弾性オブジェクトの堅牢で効果的な操作を果たします。
ただし、この戦略には、オブジェクト固有のパラメーターとタスク固有のキャリブレーションの微調整が必​​要であり、このギャップを埋めるために、トランス(ACT)とチャンキングのフレームワークでキャッチフォーム3Dを強化することにより、キャッチ形式のアクターが提案されます。
直感的な遠隔操作システムは、デモンストレーション(LFD)からの学習を実行して、長老のセンシング、意思決定、実行シーケンスを構築します。
軌道計画のみに焦点を当てた従来のACTメソッドとは異なり、私たちのアプローチは、多相操作中に剛性、減衰、および拡散パラメーターをリアルタイムで動的に調整し、人間のような力の変調を効果的に模倣します。
3つのタスクでの単一の腕/両倍のロボットでの実験は、より良い力フィールドパターンを示しているため、従来の方法よりも成功率が10%〜20%高いことが示されており、産業、医療、または家庭のシナリオの正確で安全な相互作用を可能にします。

要約(オリジナル)

Automating contact-rich manipulation of viscoelastic objects with rigid robots faces challenges including dynamic parameter mismatches, unstable contact oscillations, and spatiotemporal force-deformation coupling. In our prior work, a Compliance-Aware Tactile Control and Hybrid Deformation Regulation (CATCH-FORM-3D) strategy fulfills robust and effective manipulations of 3D viscoelastic objects, which combines a contact force-driven admittance outer loop and a PDE-stabilized inner loop, achieving sub-millimeter surface deformation accuracy. However, this strategy requires fine-tuning of object-specific parameters and task-specific calibrations, to bridge this gap, a CATCH-FORM-ACTer is proposed, by enhancing CATCH-FORM-3D with a framework of Action Chunking with Transformer (ACT). An intuitive teleoperation system performs Learning from Demonstration (LfD) to build up a long-horizon sensing, decision-making and execution sequences. Unlike conventional ACT methods focused solely on trajectory planning, our approach dynamically adjusts stiffness, damping, and diffusion parameters in real time during multi-phase manipulations, effectively imitating human-like force-deformation modulation. Experiments on single arm/bimanual robots in three tasks show better force fields patterns and thus 10%-20% higher success rates versus conventional methods, enabling precise, safe interactions for industrial, medical or household scenarios.

arxiv情報

著者 Hongjun Ma,Weichang Li,Jingwei Zhang,Shenlai He,Xiaoyan Deng
発行日 2025-04-11 03:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CATCH-FORM-ACTer: Compliance-Aware Tactile Control and Hybrid Deformation Regulation-Based Action Transformer for Viscoelastic Object Manipulation はコメントを受け付けていません