How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments?

要約

ロボット工学と自動化の分野では、大規模な言語モデル(LLM)に基づくナビゲーションシステムが最近、印象的なパフォーマンスを実証しました。
ただし、これらのシステムのセキュリティの側面は比較的少ない注意を払っています。
この論文は、自律運転、物流、緊急サービスにおけるこの技術の広範なアプリケーションを考慮して、都市の屋外環境におけるLLMベースのナビゲーションモデルにおける脆弱性の探求を先駆けています。
具体的には、元のナビゲーションプロンプトを混乱させてLLMベースのナビゲーションモデルを操作し、誤ったアクションにつながる新しいナビゲーションプロンプト攻撃を導入します。
摂動の方法に基づいて、攻撃は2つのタイプに分けられます:ナビゲーションプロンプトインサート(NPI)攻撃とナビゲーションプロンプトスワップ(NPS)攻撃。
推論のためにさまざまなLLMを使用するLLMベースのナビゲーションモデルで包括的な実験を実施しました。
いくつかのショット学習と微調整構成の両方でタッチダウンとMAP2SEQストリートビューデータセットに由来する我々の結果は、ホワイトボックスとブラックボックスの両方の攻撃に直面して、7つのメトリックにわたって顕著なパフォーマンスの低下を示しています。
さらに、当社の攻撃は、同様に効果的な結果をもたらす他のLLMベースのナビゲーションモデルに簡単に拡張できます。
これらの調査結果は、提案された攻撃の一般化可能性と転送可能性を強調し、LLMベースのナビゲーションシステムでセキュリティを強化する必要性を強調しています。
最初の対策として、ナビゲーションプロンプトエンジニアリング(NPE)防衛戦略を提案します。これは、ナビゲーションに関連するキーワードに集中して、敵対的な攻撃の影響を軽減します。
最初の調査結果は、この戦略がナビゲーションの安全性を高めることを示していますが、これらのシステムが直面する現実世界の課題に効果的に取り組むために、より強力な防衛方法を開発するためのより広い研究コミュニティが重要な必要性が残っています。

要約(オリジナル)

In the field of robotics and automation, navigation systems based on Large Language Models (LLMs) have recently demonstrated impressive performance. However, the security aspects of these systems have received relatively less attention. This paper pioneers the exploration of vulnerabilities in LLM-based navigation models in urban outdoor environments, a critical area given the widespread application of this technology in autonomous driving, logistics, and emergency services. Specifically, we introduce a novel Navigational Prompt Attack that manipulates LLM-based navigation models by perturbing the original navigational prompt, leading to incorrect actions. Based on the method of perturbation, our attacks are divided into two types: Navigational Prompt Insert (NPI) Attack and Navigational Prompt Swap (NPS) Attack. We conducted comprehensive experiments on an LLM-based navigation model that employs various LLMs for reasoning. Our results, derived from the Touchdown and Map2Seq street-view datasets under both few-shot learning and fine-tuning configurations, demonstrate notable performance declines across seven metrics in the face of both white-box and black-box attacks. Moreover, our attacks can be easily extended to other LLM-based navigation models with similarly effective results. These findings highlight the generalizability and transferability of the proposed attack, emphasizing the need for enhanced security in LLM-based navigation systems. As an initial countermeasure, we propose the Navigational Prompt Engineering (NPE) Defense strategy, which concentrates on navigation-relevant keywords to reduce the impact of adversarial attacks. While initial findings indicate that this strategy enhances navigational safety, there remains a critical need for the wider research community to develop stronger defense methods to effectively tackle the real-world challenges faced by these systems.

arxiv情報

著者 Congcong Wen,Jiazhao Liang,Shuaihang Yuan,Hao Huang,Geeta Chandra Raju Bethala,Yu-Shen Liu,Mengyu Wang,Anthony Tzes,Yi Fang
発行日 2025-05-23 04:03:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments? はコメントを受け付けていません

Bimanual Regrasp Planning and Control for Active Reduction of Object Pose Uncertainty

要約

オブジェクトを正確に把握することは、不確実性をもたらすため、挑戦的な作業です。
従来の方法では、カメラと備品を使用してオブジェクトの不確実性を軽減しています。
それらは効果的ですが、オブジェクトジオメトリに基づいたジグの設計や、レーザーを使用して製造された高精度ツールを備えたカメラを較正するなど、集中的な準備が必要です。
この研究では、フィクスチャやカメラを使用せずに、把持したオブジェクトの位置と方向の不確実性を減らす方法を提案します。
私たちの方法は、平行グリッパーの平らな指パッドが、平らな表面接触を介して開口/閉じ方向に沿って不確実性を減らすことができるという概念に基づいています。
平らな指のパッドを備えた平行グリッパーによる3つの直交goの握りは、オブジェクトの位置と方向を一意の状態にまとめて制限します。
概念に導かれて、オブジェクトのポーズの不確実性を積極的に減らすために、2つのロボットアームの3つの直交握りを順次見つけてレバレッジする再aspの計画とアドミタンス制御アプローチを開発します。
さまざまな初期オブジェクトの不確実性に関する提案された方法を評価し、それが良好な再現性があることを確認しました。
実験試験の偏差レベルは、光学追跡システムのレベルと同じ桁であり、強力な相対推論のパフォーマンスを示しています。

要約(オリジナル)

Precisely grasping an object is a challenging task due to pose uncertainties. Conventional methods have used cameras and fixtures to reduce object uncertainty. They are effective but require intensive preparation, such as designing jigs based on the object geometry and calibrating cameras with high-precision tools fabricated using lasers. In this study, we propose a method to reduce the uncertainty of the position and orientation of a grasped object without using a fixture or a camera. Our method is based on the concept that the flat finger pads of a parallel gripper can reduce uncertainty along its opening/closing direction through flat surface contact. Three orthogonal grasps by parallel grippers with flat finger pads collectively constrain an object’s position and orientation to a unique state. Guided by the concepts, we develop a regrasp planning and admittance control approach that sequentially finds and leverages three orthogonal grasps of two robotic arms to actively reduce uncertainties in the object pose. We evaluated the proposed method on different initial object uncertainties and verified that it had good repeatability. The deviation levels of the experimental trials were on the same order of magnitude as those of an optical tracking system, demonstrating strong relative inference performance.

arxiv情報

著者 Ryuta Nagahama,Weiwei Wan,Zhengtao Hu,Kensuke Harada
発行日 2025-05-23 04:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bimanual Regrasp Planning and Control for Active Reduction of Object Pose Uncertainty はコメントを受け付けていません

DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration

要約

物理的な人間のロボットコラボレーション(PHRC)では、正確な人間の意図の推定と合理的な人間ロボットの役割の割り当てが、安全で効率的な支援のために重要です。
意図推定のために短期モーションデータに依存する既存の方法は、マルチステップ予測機能を欠いており、意図の変化を感知し、人間のロボットの割り当てを自律的に調整する能力を妨げ、潜在的な矛盾をもたらします。
これらの問題に対処するために、階層的なアーキテクチャを特徴とするデュアルトランスベースのロボットトラクトロン(DTRT)を提案します。これは、人間の誘導運動と強制データを活用して、人間の意図の変化を迅速にキャプチャし、正確な軌道予測と効果的なコラボレーションのための動的ロボットの動作調整を可能にします。
具体的には、DTRTのヒトの意図推定では、2つの変圧器ベースの条件付き変動自動エンコーダー(CVAE)を使用し、障害物のない軌跡と障害物回避の力を備えた障害物のないケースにロボットモーションデータを組み込みます。
さらに、微分協同ゲーム理論(DCGT)が採用され、人間が適用された力に基づいて予測を合成し、ロボットの行動が人間の意図に合わせて確実に整列しています。
最先端の(SOTA)方法と比較して、DTRTは人間のダイナミクスを長期的な予測に組み込み、意図の正確な理解を提供し、合理的な役割の割り当てを可能にし、ロボットの自律性と操縦性を達成します。
実験は、DTRTの正確な意図の推定と優れたコラボレーションパフォーマンスを示しています。

要約(オリジナル)

In physical Human-Robot Collaboration (pHRC), accurate human intent estimation and rational human-robot role allocation are crucial for safe and efficient assistance. Existing methods that rely on short-term motion data for intention estimation lack multi-step prediction capabilities, hindering their ability to sense intent changes and adjust human-robot assignments autonomously, resulting in potential discrepancies. To address these issues, we propose a Dual Transformer-based Robot Trajectron (DTRT) featuring a hierarchical architecture, which harnesses human-guided motion and force data to rapidly capture human intent changes, enabling accurate trajectory predictions and dynamic robot behavior adjustments for effective collaboration. Specifically, human intent estimation in DTRT uses two Transformer-based Conditional Variational Autoencoders (CVAEs), incorporating robot motion data in obstacle-free case with human-guided trajectory and force for obstacle avoidance. Additionally, Differential Cooperative Game Theory (DCGT) is employed to synthesize predictions based on human-applied forces, ensuring robot behavior align with human intention. Compared to state-of-the-art (SOTA) methods, DTRT incorporates human dynamics into long-term prediction, providing an accurate understanding of intention and enabling rational role allocation, achieving robot autonomy and maneuverability. Experiments demonstrate DTRT’s accurate intent estimation and superior collaboration performance.

arxiv情報

著者 Haotian Liu,Yuchuang Tong,Zhengtao Zhang
発行日 2025-05-23 05:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration はコメントを受け付けていません

Model Predictive Inferential Control of Neural State-Space Models for Autonomous Vehicle Motion Planning

要約

モデル予測制御(MPC)は、自動運転車の安全で最適なモーション計画を可能にするのに役立つことが証明されています。
この論文では、神経状態空間モデルが車両のダイナミクスを表す場合に、MPCベースのモーション計画を達成する方法を調査します。
神経状態空間モデルは、非常に複雑で非線形および非凸最適化の景観につながるため、主流の勾配ベースのMPCメソッドは、実行可能なソリューションになるには計算上重すぎます。
出発において、制御目標と制約から最良の制御決定を推測しようとするモデル予測推論制御(MPIC)のアイデアを提案します。
このアイデアに従って、モーション計画のMPC問題をベイジアン州の推定問題に変換します。
次に、推定を実行するために新しい粒子フィルタリング/スムージングアプローチを開発します。
このアプローチは、無香料のカルマンフィルター/スムーザーの銀行として実装されており、高いサンプリング効率、高速計算、および推定精度を提供します。
さまざまなシナリオでの自律運転のシミュレーション調査を通じて、勾配ベースのMPCとの徹底的な比較を通じて、MPICアプローチを評価します。
結果は、MPICアプローチが複雑なニューラルネットワークアーキテクチャに関係なくかなりの計算効率を持ち、神経状態空間モデルの大規模なMPC問題を解決する機能を示していることを示しています。

要約(オリジナル)

Model predictive control (MPC) has proven useful in enabling safe and optimal motion planning for autonomous vehicles. In this paper, we investigate how to achieve MPC-based motion planning when a neural state-space model represents the vehicle dynamics. As the neural state-space model will lead to highly complex, nonlinear and nonconvex optimization landscapes, mainstream gradient-based MPC methods will be computationally too heavy to be a viable solution. In a departure, we propose the idea of model predictive inferential control (MPIC), which seeks to infer the best control decisions from the control objectives and constraints. Following the idea, we convert the MPC problem for motion planning into a Bayesian state estimation problem. Then, we develop a new particle filtering/smoothing approach to perform the estimation. This approach is implemented as banks of unscented Kalman filters/smoothers and offers high sampling efficiency, fast computation, and estimation accuracy. We evaluate the MPIC approach through a simulation study of autonomous driving in different scenarios, along with an exhaustive comparison with gradient-based MPC. The results show that the MPIC approach has considerable computational efficiency, regardless of complex neural network architectures, and shows the capability to solve large-scale MPC problems for neural state-space models.

arxiv情報

著者 Iman Askari,Ali Vaziri,Xuemin Tu,Shen Zeng,Huazhen Fang
発行日 2025-05-23 05:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Model Predictive Inferential Control of Neural State-Space Models for Autonomous Vehicle Motion Planning はコメントを受け付けていません

CU-Multi: A Dataset for Multi-Robot Data Association

要約

マルチロボットシステム(MRSS)は、共有の観察を調整する能力により、Search and Rescueなどのタスクに役立ちます。
これらのシステムの中心的な課題は、空間と時間にわたって独立して収集された知覚データを調整することです。つまり、マルチロボットデータ関連です。
共同スラム(C-SLAM)の最近の進歩、マップマージ、およびロボット間ループ閉鎖検出がフィールドを大幅に進歩させましたが、評価戦略は、単一の軌跡を単一ロボットスラムデータセットから複数のセグメントに分割して複数のロボットをシミュレートすることに依然として主に依存しています。
単一の軌道がどのように分割されるかを慎重に考慮せずに、このアプローチは、マルチロボットシステムに固有のシーンの観測における現実的なポーズ依存の変動をキャプチャできません。
このギャップに対処するために、コロラド大学ボルダーキャンパスの2つの場所で複数日にわたって収集されたマルチロボットデータセットであるCu-Multiを紹介します。
単一のロボットプラットフォームを使用して、アライメントされた開始時間と軌跡の重複の意図的な割合で4つの同期実行を生成します。
Cu-Multiには、RGB-D、正確な地理空間見出しを備えたGPS、および意味的に注釈付きLIDARデータが含まれます。
Cu-Multiは、軌跡のオーバーラップと密なLidar注釈の制御された変動を導入することにより、マルチロボットデータ関連の方法を評価するための魅力的な代替手段を提供します。
データセット、サポートコード、最新の更新へのアクセスに関する手順は、https://arpg.github.io/cumultiで公開されています

要約(オリジナル)

Multi-robot systems (MRSs) are valuable for tasks such as search and rescue due to their ability to coordinate over shared observations. A central challenge in these systems is aligning independently collected perception data across space and time, i.e., multi-robot data association. While recent advances in collaborative SLAM (C-SLAM), map merging, and inter-robot loop closure detection have significantly progressed the field, evaluation strategies still predominantly rely on splitting a single trajectory from single-robot SLAM datasets into multiple segments to simulate multiple robots. Without careful consideration to how a single trajectory is split, this approach will fail to capture realistic pose-dependent variation in observations of a scene inherent to multi-robot systems. To address this gap, we present CU-Multi, a multi-robot dataset collected over multiple days at two locations on the University of Colorado Boulder campus. Using a single robotic platform, we generate four synchronized runs with aligned start times and deliberate percentages of trajectory overlap. CU-Multi includes RGB-D, GPS with accurate geospatial heading, and semantically annotated LiDAR data. By introducing controlled variations in trajectory overlap and dense lidar annotations, CU-Multi offers a compelling alternative for evaluating methods in multi-robot data association. Instructions on accessing the dataset, support code, and the latest updates are publicly available at https://arpg.github.io/cumulti

arxiv情報

著者 Doncey Albin,Miles Mena,Annika Thomas,Harel Biggie,Xuefei Sun,Dusty Woods,Steve McGuire,Christoffer Heckman
発行日 2025-05-23 07:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CU-Multi: A Dataset for Multi-Robot Data Association はコメントを受け付けていません

Distance Estimation in Outdoor Driving Environments Using Phase-only Correlation Method with Event Cameras

要約

自律運転の採用が拡大するにつれて、センサー技術の進歩は、安全性と信頼できる運用を確保するために重要です。
LIDAR、レーダー、カメラなどの複数のセンサーを組み合わせたセンサー融合技術は効果的であることが証明されていますが、複数のデバイスの統合により、ハードウェアの複雑さとコストの両方が増加します。
したがって、複数の役割を実行できる単一のセンサーを開発することは、費用対効果の高いスケーラブルな自律駆動システムには非常に望ましいものです。
イベントカメラは、高ダイナミックレンジ、低レイテンシ、高時間分解能など、独自の特性により、有望なソリューションとして浮上しています。
これらの機能により、低光やバックライトの環境など、挑戦的な照明条件でうまく機能することができます。
さらに、細粒のモーションイベントを検出する能力により、歩行者の検出や目に見える光を介した車両間通信などの用途に適しています。
この研究では、単眼イベントカメラと道端のLEDバーを使用して、距離推定の方法を提示します。
イベントデータに位相のみの相関手法を適用することにより、2つの光源間の空間シフトを検出する際にサブピクセルの精度を達成します。
これにより、ステレオビジョンを必要とせずに、正確な三角測量ベースの距離推定が可能になります。
屋外での運転シナリオで行われたフィールド実験は、提案されたアプローチが20〜60メートルの距離で0.5メートル未満の誤差で90%以上の成功率を達成することを示しました。
将来の作業には、LEDを装備したスマートポールなどのインフラストラクチャを活用することにより、この方法をフルポジション推定に拡張し、イベントカメラベースの車両がリアルタイムで自分の位置を決定できるようにすることが含まれます。
この進歩は、ナビゲーションの精度、ルートの最適化、インテリジェントな輸送システムへの統合を大幅に向上させることができます。

要約(オリジナル)

With the growing adoption of autonomous driving, the advancement of sensor technology is crucial for ensuring safety and reliable operation. Sensor fusion techniques that combine multiple sensors such as LiDAR, radar, and cameras have proven effective, but the integration of multiple devices increases both hardware complexity and cost. Therefore, developing a single sensor capable of performing multiple roles is highly desirable for cost-efficient and scalable autonomous driving systems. Event cameras have emerged as a promising solution due to their unique characteristics, including high dynamic range, low latency, and high temporal resolution. These features enable them to perform well in challenging lighting conditions, such as low-light or backlit environments. Moreover, their ability to detect fine-grained motion events makes them suitable for applications like pedestrian detection and vehicle-to-infrastructure communication via visible light. In this study, we present a method for distance estimation using a monocular event camera and a roadside LED bar. By applying a phase-only correlation technique to the event data, we achieve sub-pixel precision in detecting the spatial shift between two light sources. This enables accurate triangulation-based distance estimation without requiring stereo vision. Field experiments conducted in outdoor driving scenarios demonstrated that the proposed approach achieves over 90% success rate with less than 0.5-meter error for distances ranging from 20 to 60 meters. Future work includes extending this method to full position estimation by leveraging infrastructure such as smart poles equipped with LEDs, enabling event-camera-based vehicles to determine their own position in real time. This advancement could significantly enhance navigation accuracy, route optimization, and integration into intelligent transportation systems.

arxiv情報

著者 Masataka Kobayashi,Shintaro Shiba,Quan Kong,Norimasa Kobori,Tsukasa Shimizu,Shan Lu,Takaya Yamazato
発行日 2025-05-23 07:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, I.2.10 | Distance Estimation in Outdoor Driving Environments Using Phase-only Correlation Method with Event Cameras はコメントを受け付けていません

MinkUNeXt-SI: Improving point cloud-based place recognition including spherical coordinates and LiDAR intensity

要約

自律ナビゲーションシステムでは、場所認識問題の解決策が安全に機能するために不可欠です。
しかし、これは些細なソリューションではありません。季節の変化や異なる気象条件など、シーンの変化に関係なく正確でなければならず、他の環境に一般化できる必要があります。
このペーパーでは、Lidar Pointクラウドから始まるメソッドMinkunext-Siは、入力データを前処理して、各ポイントで0〜1の範囲内で正規化された球状の座標と強度値を取得し、堅牢な場所認識記述子を生成します。
そのため、Minkowskiの畳み込みとSkip ConnectionsとU-Netアーキテクチャを組み合わせた深い学習アプローチが使用されます。
Minkunext-Siの結果は、この方法が最先端のパフォーマンスに到達して超えていることを示していますが、他のデータセットにも十分に一般化します。
さらに、カスタムデータセットのキャプチャとソリューションの評価におけるその使用を紹介します。これは、優れた結果も達成します。
ソリューションのコードとデータセットの実行の両方は、再現性のために公開されています。

要約(オリジナル)

In autonomous navigation systems, the solution of the place recognition problem is crucial for their safe functioning. But this is not a trivial solution, since it must be accurate regardless of any changes in the scene, such as seasonal changes and different weather conditions, and it must be generalizable to other environments. This paper presents our method, MinkUNeXt-SI, which, starting from a LiDAR point cloud, preprocesses the input data to obtain its spherical coordinates and intensity values normalized within a range of 0 to 1 for each point, and it produces a robust place recognition descriptor. To that end, a deep learning approach that combines Minkowski convolutions and a U-net architecture with skip connections is used. The results of MinkUNeXt-SI demonstrate that this method reaches and surpasses state-of-the-art performance while it also generalizes satisfactorily to other datasets. Additionally, we showcase the capture of a custom dataset and its use in evaluating our solution, which also achieves outstanding results. Both the code of our solution and the runs of our dataset are publicly available for reproducibility purposes.

arxiv情報

著者 Judith Vilella-Cantos,Juan José Cabrera,Luis Payá,Mónica Ballesta,David Valiente
発行日 2025-05-23 07:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | MinkUNeXt-SI: Improving point cloud-based place recognition including spherical coordinates and LiDAR intensity はコメントを受け付けていません

Koopman Operators in Robot Learning

要約

Koopmanオペレーター理論は、ダイナミクスの厳密な治療を提供し、さまざまなロボット工学サブドメインにわたって代替モデリングおよび学習ベースの制御方法として浮上しています。
非線形ダイナミクスを線形(ただしより高次元の)演算子として表す能力により、Koopman Theoryは、複雑なロボットシステムのモデリングと制御を理解して取り組むための新鮮なレンズを提供します。
さらに、インクリメンタルアップデートを有効にし、計算的に安価であるため、リアルタイムアプリケーションやオンラインアクティブ学習に特に魅力的です。
このレビューは、Koopman Operator Theoryの基礎を深く掘り下げ、理論原則から実用的なロボットアプリケーションまで橋を体系的に構築します。
Koopmanフレームワークの数学的基盤を説明し、Koopmanベースのモデリングに入力を組み込むための近似アプローチについて説明することから始めます。
データ収集戦略や、効果的なシステム埋め込みのためのリフティング機能の設計などの基本的な考慮事項についても説明します。
次に、Koopmanベースのモデルが、モデルベースの制御、リアルタイムの状態推定、およびモーション計画など、さまざまなロボットタスクの統一ツールとしてどのように機能するかを探ります。
このレビューは、多様なロボット工学サブドメインにわたるKoopmanメソッドの汎用性と成長する影響を実証する最先端の研究の調査に進みます。航空および脚のあるプラットフォームからマニピュレーター、ソフトボディシステム、およびマルチエージェントネットワークまで。
全体的なフレームワークを推進するために必要な、より高度な理論的トピックのプレゼンテーションが含まれています。
最後に、私たちは残っているいくつかの重要なオープンな課題を振り返り、Koopmanにインスパイアされたロボティクスの次の段階を形作る将来の研究の方向性を明確にします。
実用的な採用をサポートするために、https://shorturl.at/oue59で実行可能なコードを備えた実践的なチュートリアルを提供します。

要約(オリジナル)

Koopman operator theory offers a rigorous treatment of dynamics and has been emerging as an alternative modeling and learning-based control method across various robotics sub-domains. Due to its ability to represent nonlinear dynamics as a linear (but higher-dimensional) operator, Koopman theory offers a fresh lens through which to understand and tackle the modeling and control of complex robotic systems. Moreover, it enables incremental updates and is computationally inexpensive, thus making it particularly appealing for real-time applications and online active learning. This review delves deeply into the foundations of Koopman operator theory and systematically builds a bridge from theoretical principles to practical robotic applications. We begin by explaining the mathematical underpinnings of the Koopman framework and discussing approximation approaches for incorporating inputs into Koopman-based modeling. Foundational considerations, such as data collection strategies as well as the design of lifting functions for effective system embedding, are also discussed. We then explore how Koopman-based models serve as a unifying tool for a range of robotics tasks, including model-based control, real-time state estimation, and motion planning. The review proceeds to a survey of cutting-edge research that demonstrates the versatility and growing impact of Koopman methods across diverse robotics sub-domains: from aerial and legged platforms to manipulators, soft-bodied systems, and multi-agent networks. A presentation of more advanced theoretical topics, necessary to push forward the overall framework, is included. Finally, we reflect on some key open challenges that remain and articulate future research directions that will shape the next phase of Koopman-inspired robotics. To support practical adoption, we provide a hands-on tutorial with executable code at https://shorturl.at/ouE59.

arxiv情報

著者 Lu Shi,Masih Haseli,Giorgos Mamakoukas,Daniel Bruder,Ian Abraham,Todd Murphey,Jorge Cortes,Konstantinos Karydis
発行日 2025-05-23 08:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Koopman Operators in Robot Learning はコメントを受け付けていません

H2-COMPACT: Human-Humanoid Co-Manipulation via Adaptive Contact Trajectory Policies

要約

脚のあるヒューマノイドが、意図の推論のために触覚的な手がかりのみを使用して、人間のパートナーと拡張された負荷を協力的に運ぶことができる階層的な政策学習フレームワークを提示します。
上部層では、軽量の動作クローニングネットワークは、デュアルリストマウントセンサーから6軸の力/トルクストリームを消費し、リーダーの応用力をキャプチャする全身平面速度コマンドを出力します。
下層層では、Isaacジムのランダム化ペイロード(0〜3 kg)および摩擦条件の下で訓練され、ムジョコで検証された摩擦条件と実際のUnitree G1で、これらのハイレベルのひねりを安定した荷積みの関節軌道にマッピングします。
脚のある移動(速度 – >ジョイント)からの意図解釈(力 – >速度)を切り離すことにより、私たちの方法は、人間の入力に対する直感的な応答性と堅牢で負荷適応的なウォーキングと組み合わされます。
モーションキャプチャまたはマーカーなしでトレーニングデータを収集します。SAM2とWHAMを使用して3Dヒトポーズと速度を抽出し、同期したRGBビデオとF/T測定値のみを収集します。
現実世界の試験では、ヒューマノイドは、目隠しされたヒトフォロワーベースラインと同等に、協力的なキャリーアンドモーブのパフォーマンス(完了時間、軌道逸脱、速度同期、およびフォロワーフォース)を達成します。
この作業は、液体ヒトとヒューマノイドの共操作のための全身脚のコントロールと融合した学習された触覚ガイダンスを実証する最初の作業です。
コードとビデオは、H2-Compact Webサイトで入手できます。

要約(オリジナル)

We present a hierarchical policy-learning framework that enables a legged humanoid to cooperatively carry extended loads with a human partner using only haptic cues for intent inference. At the upper tier, a lightweight behavior-cloning network consumes six-axis force/torque streams from dual wrist-mounted sensors and outputs whole-body planar velocity commands that capture the leader’s applied forces. At the lower tier, a deep-reinforcement-learning policy, trained under randomized payloads (0-3 kg) and friction conditions in Isaac Gym and validated in MuJoCo and on a real Unitree G1, maps these high-level twists to stable, under-load joint trajectories. By decoupling intent interpretation (force -> velocity) from legged locomotion (velocity -> joints), our method combines intuitive responsiveness to human inputs with robust, load-adaptive walking. We collect training data without motion-capture or markers, only synchronized RGB video and F/T readings, employing SAM2 and WHAM to extract 3D human pose and velocity. In real-world trials, our humanoid achieves cooperative carry-and-move performance (completion time, trajectory deviation, velocity synchrony, and follower-force) on par with a blindfolded human-follower baseline. This work is the first to demonstrate learned haptic guidance fused with full-body legged control for fluid human-humanoid co-manipulation. Code and videos are available on the H2-COMPACT website.

arxiv情報

著者 Geeta Chandra Raju Bethala,Hao Huang,Niraj Pudasaini,Abdullah Mohamed Ali,Shuaihang Yuan,Congcong Wen,Anthony Tzes,Yi Fang
発行日 2025-05-23 08:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | H2-COMPACT: Human-Humanoid Co-Manipulation via Adaptive Contact Trajectory Policies はコメントを受け付けていません

Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling

要約

安全で実行可能な軌道計画は、現実世界の自律運転システムに不可欠です。
ただし、既存の学習ベースの計画方法は、多くの場合、専門家のデモンストレーションに依存しています。これは、明示的な安全性の認識を欠いているだけでなく、最適ではない人間の運転データからのスピード違反などの危険な行動を継承するリスクもありません。
大規模な言語モデルの成功に触発されたPlan-R1は、安全性、快適性、交通規則のコンプライアンスなどの明示的な計画原則に導かれる軌道計画を順次予測タスクとして策定する新しい2段階軌道計画フレームワークであると提案します。
最初の段階では、専門家データの次のモーショントークン予測を介して、自己回帰軌道予測因子を訓練します。
第2段階では、ルールベースの報酬(衝突回避、速度制限など)を設計し、強化学習戦略であるグループ相対ポリシー最適化(GRPO)を使用してモデルを微調整して、これらの計画原則に予測を合わせます。
Nuplanベンチマークでの実験は、Plan-R1が計画の安全性と実現可能性を大幅に改善し、最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Safe and feasible trajectory planning is essential for real-world autonomous driving systems. However, existing learning-based planning methods often rely on expert demonstrations, which not only lack explicit safety awareness but also risk inheriting unsafe behaviors such as speeding from suboptimal human driving data. Inspired by the success of large language models, we propose Plan-R1, a novel two-stage trajectory planning framework that formulates trajectory planning as a sequential prediction task, guided by explicit planning principles such as safety, comfort, and traffic rule compliance. In the first stage, we train an autoregressive trajectory predictor via next motion token prediction on expert data. In the second stage, we design rule-based rewards (e.g., collision avoidance, speed limits) and fine-tune the model using Group Relative Policy Optimization (GRPO), a reinforcement learning strategy, to align its predictions with these planning principles. Experiments on the nuPlan benchmark demonstrate that our Plan-R1 significantly improves planning safety and feasibility, achieving state-of-the-art performance.

arxiv情報

著者 Xiaolong Tang,Meina Kan,Shiguang Shan,Xilin Chen
発行日 2025-05-23 09:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling はコメントを受け付けていません