WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving

要約

言語モデルは、テキストベースのトレーニングから蓄積された無限の知識により、運転シナリオの分析における前例のない能力を明らかにします。
当然のことながら、彼らは特に、テキストで十分に文書化されている交通法でトリガーされたものなど、ルールベースの相互作用の分析に優れている必要があります。
ただし、そのような相互作用分析は、それに対処する専用の言語データセットがないため、未脱カクルのままです。
したがって、Waymo Open Motion Dataset-Reasoning(WOMD-Reasoning)は、運転シナリオにおけるトラフィックルール誘導の相互作用の説明と推論に焦点を当てたWOMD上に構築された包括的な大規模なQ&ASデータセットを提案します。
WOMD-Reasoningは、最大のマルチモーダルQ&Aデータセットをはるかに紹介し、実際の運転シナリオで300万のQ&Aを提供し、マップの説明やモーションステータスの説明から、エージェントの相互作用、行動、意図の物語や分析までの幅広い運転トピックをカバーしています。
WOMD Reasoningのアプリケーションを紹介するために、WOMD Reasoningで微調整されたモーションランゲージモデルであるMotion-llavaを設計します。
定量的および定性的評価は、WOMD Reasoningデータセットとモーションラバの出力で実行され、WOMD-Reasoningのデータ品質と幅広いアプリケーションをサポートし、相互作用予測、トラフィックルールコンプライアンス計画などでサポートします。
それを構築するためのコードとプロンプトは、https://github.com/yhli123/womd-reasoningで利用できます。

要約(オリジナル)

Language models uncover unprecedented abilities in analyzing driving scenarios, owing to their limitless knowledge accumulated from text-based pre-training. Naturally, they should particularly excel in analyzing rule-based interactions, such as those triggered by traffic laws, which are well documented in texts. However, such interaction analysis remains underexplored due to the lack of dedicated language datasets that address it. Therefore, we propose Waymo Open Motion Dataset-Reasoning (WOMD-Reasoning), a comprehensive large-scale Q&As dataset built on WOMD focusing on describing and reasoning traffic rule-induced interactions in driving scenarios. WOMD-Reasoning also presents by far the largest multi-modal Q&A dataset, with 3 million Q&As on real-world driving scenarios, covering a wide range of driving topics from map descriptions and motion status descriptions to narratives and analyses of agents’ interactions, behaviors, and intentions. To showcase the applications of WOMD-Reasoning, we design Motion-LLaVA, a motion-language model fine-tuned on WOMD-Reasoning. Quantitative and qualitative evaluations are performed on WOMD-Reasoning dataset as well as the outputs of Motion-LLaVA, supporting the data quality and wide applications of WOMD-Reasoning, in interaction predictions, traffic rule compliance plannings, etc. The dataset and its vision modal extension are available on https://waymo.com/open/download/. The codes & prompts to build it are available on https://github.com/yhli123/WOMD-Reasoning.

arxiv情報

著者 Yiheng Li,Cunxin Fan,Chongjian Ge,Zhihao Zhao,Chenran Li,Chenfeng Xu,Huaxiu Yao,Masayoshi Tomizuka,Bolei Zhou,Chen Tang,Mingyu Ding,Wei Zhan
発行日 2025-05-25 22:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving はコメントを受け付けていません

Towards Humanoid Robot Autonomy: A Dynamic Architecture Integrating Continuous thought Machines (CTM) and Model Context Protocol (MCP)

要約

馴染みのないシナリオでのヒューマノイドロボットの静的な事前セットの「思考計画アクション」と、自律コーディング機能がないために高度にプログラムされた「コールツールリターン結果」の間のギャップに対処するために、この作業は連続思考マシン(CTM)とモデルコンテキストプロトコル(MCP)を接続する動的アーキテクチャを設計します。
Tick-Slabを介した理論的並列ソリューションを提案し、ランク圧縮を使用してパラメーター抑制を実現し、自律的なコーディングのために自律的なアクションを達成するためのソリューションを提供します。
研究者は、OpenAIのO4-Mini-Highを使用して実験環境を構築するツールとして使用してシミュレーションベースの実験を使用し、拡張SayCanデータセットを導入して9つのエポックの実験を実施しました。
実験結果は、CTM-MCPアーキテクチャが7つのメトリックのデータ結果(TSR)、実行成功率(ESR)、平均エピソード長(AEL)、ROSCOE、公開、習熟度自己評価(PSA)、タスク効果(TE)のデータ結果を通じて実行可能かつ効果的であることを示しています。
実際には、人間のような自律行動を達成するための継続的な思考に基づいて、ヒューマノイドロボットの自律的な動的コーディングを探索するための参照エクスペリエンスを提供します。

要約(オリジナル)

To address the gaps between the static pre-set ‘thinking-planning-action’ of humanoid robots in unfamiliar scenarios and the highly programmed ‘call tool-return result’ due to the lack of autonomous coding capabilities, this work designs a dynamic architecture connecting continuous thought machines (CTM) and model context protocol (MCP). It proposes a theoretical parallel solution through tick-slab and uses rank compression to achieve parameter suppression to provide a solution for achieving autonomous actions due to autonomous coding. The researcher used a simulation-based experiment using OpenAI’s o4-mini-high as a tool to build the experimental environment, and introduced the extended SayCan dataset to conduct nine epochs of experiments. The experimental results show that the CTM-MCP architecture is feasible and effective through the data results of seven metrics: task success rate (TSR), execution success rate (ESR), average episode length (AEL), ROSCOE, REVEAL, proficiency self-assessment (PSA), task effectiveness (TE). In practice, it provides a reference experience for exploring the autonomous dynamic coding of humanoid robots based on continuous thinking to achieve human-like autonomous actions.

arxiv情報

著者 Libo Wang
発行日 2025-05-25 22:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Towards Humanoid Robot Autonomy: A Dynamic Architecture Integrating Continuous thought Machines (CTM) and Model Context Protocol (MCP) はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約

エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、究極の目標を追求する最適化を可能にする、モジュラータスク、つまり知覚、予測、および計画を統合する完全な設計により急増しています。
エンドツーエンドのパラダイムの大きな可能性にもかかわらず、既存の方法は、複雑な現実世界のシナリオにおける高価なBEV(鳥瞰図)の計算、アクションの多様性、最適な決定など、いくつかの側面に苦しんでいます。
これらの課題に対処するために、diff-vlaと呼ばれるビジョン言語モデル(VLM)によって権限を与えられた、新しいハイブリッドスパース密度の高い拡散ポリシーを提案します。
効率的なマルチモーダル駆動行動のためのスパース拡散表現を探ります。
さらに、VLMの運転決定の有効性を再考し、エージェント、マップインスタンス、VLM出力を介した深い相互作用を通じて軌道生成ガイダンスを改善します。
私たちの方法は、挑戦的な現実的で反応性のある合成シナリオを含む自律的なグランドチャレンジ2025の優れたパフォーマンスを示しています。
私たちの方法は45.0 PDMSを達成します。

要約(オリジナル)

Research interest in end-to-end autonomous driving has surged owing to its fully differentiable design integrating modular tasks, i.e. perception, prediction and planing, which enables optimization in pursuit of the ultimate goal. Despite the great potential of the end-to-end paradigm, existing methods suffer from several aspects including expensive BEV (bird’s eye view) computation, action diversity, and sub-optimal decision in complex real-world scenarios. To address these challenges, we propose a novel hybrid sparse-dense diffusion policy, empowered by a Vision-Language Model (VLM), called Diff-VLA. We explore the sparse diffusion representation for efficient multi-modal driving behavior. Moreover, we rethink the effectiveness of VLM driving decision and improve the trajectory generation guidance through deep interaction across agent, map instances and VLM output. Our method shows superior performance in Autonomous Grand Challenge 2025 which contains challenging real and reactive synthetic scenarios. Our methods achieves 45.0 PDMS.

arxiv情報

著者 Anqing Jiang,Yu Gao,Zhigang Sun,Yiru Wang,Jijun Wang,Jinghao Chai,Qian Cao,Yuweng Heng,Hao Jiang,Zongzheng Zhang,Xianda Guo,Hao Sun,Hao Zhao
発行日 2025-05-26 00:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません

A low-cost and lightweight 6 DoF bimanual arm for dynamic and contact-rich manipulation

要約

ハードウェアの制限のため、ロボットシステムにとって、ストライキ、スナッチ、ハンマーリングなどの動的および接触豊富なオブジェクトの操作は依然として困難です。
ほとんどの既存のロボットは、高挿入設計、限られたコンプライアンス、および高価なトルクセンサーへの依存によって制約されています。
これに対処するために、ダイナミック操作研究のために設計された6度のフリードームの双近のロボットであるArmada(操作と動的アクションのための手頃なロボット)を紹介します。
Armadaは、研究室での組み立てを容易にするために、容易に利用可能なコンポーネントと3Dプリントされたリンクを使用して、低腸の低下性アクチュエーターを軽量設計と組み合わせています。
両方のアームを含むシステム全体は、わずか6,100ドルで構築されています。
各アームは、最大6.16m/sの速度を達成し、ほとんどの共同ロボットのほぼ2倍で、2.5kgの同等のペイロードがあります。
Armadaは、実世界の環境でのひったくり、ハンマー、および双方向の投げなどの動的操作を実行できることを示しています。
また、シミュレーションにおける非充実した操作ポリシーをトレーニングし、現実世界にゼロショットを転送することと、動的な両マニュアルオブジェクトスロー用の人間の動きのシャドウイングを導入することにより、その強化学習(RL)におけるその有効性を紹介します。
Armadaには、詳細なアセンブリの指示、CADモデル、URDF、シミュレーション、および学習コードが完全にオープンソーリングされています。
https://sites.google.com/view/im2-humanoid-armで補足ビデオを見ることを強くお勧めします。

要約(オリジナル)

Dynamic and contact-rich object manipulation, such as striking, snatching, or hammering, remains challenging for robotic systems due to hardware limitations. Most existing robots are constrained by high-inertia design, limited compliance, and reliance on expensive torque sensors. To address this, we introduce ARMADA (Affordable Robot for Manipulation and Dynamic Actions), a 6 degrees-of-freedom bimanual robot designed for dynamic manipulation research. ARMADA combines low-inertia, back-drivable actuators with a lightweight design, using readily available components and 3D-printed links for ease of assembly in research labs. The entire system, including both arms, is built for just $6,100. Each arm achieves speeds up to 6.16m/s, almost twice that of most collaborative robots, with a comparable payload of 2.5kg. We demonstrate ARMADA can perform dynamic manipulation like snatching, hammering, and bimanual throwing in real-world environments. We also showcase its effectiveness in reinforcement learning (RL) by training a non-prehensile manipulation policy in simulation and transferring it zero-shot to the real world, as well as human motion shadowing for dynamic bimanual object throwing. ARMADA is fully open-sourced with detailed assembly instructions, CAD models, URDFs, simulation, and learning codes. We highly recommend viewing the supplementary video at https://sites.google.com/view/im2-humanoid-arm.

arxiv情報

著者 Jaehyung Kim,Jiho Kim,Dongryung Lee,Yujin Jang,Beomjoon Kim
発行日 2025-05-26 01:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A low-cost and lightweight 6 DoF bimanual arm for dynamic and contact-rich manipulation はコメントを受け付けていません

SMAP: Self-supervised Motion Adaptation for Physically Plausible Humanoid Whole-body Control

要約

このペーパーでは、現実世界のヒューマノイドロボットが人間のような動きを実行しながら安定性を維持できるようにする新しいフレームワークを紹介します。
現在の方法は、補強学習を介して大規模なリターゲティングされた人間のデータを使用して、ヒューマノイドロボットが人体を追うことを可能にするポリシーを訓練します。
ただし、人間とヒューマノイドのロボットの動きの間の不均一性により、リターゲティングされた人間の動きを直接使用すると、トレーニングの効率と安定性が低下します。
この目的のために、人間とヒューマノイドの作用スペースのギャップを埋める新しい全身追跡フレームワークであるSMAPを紹介し、ヒューマノイドロボットによる正確な動きの模倣を可能にします。
核となるアイデアは、ベクトル定量化された周期自動エンコーダーを使用して、一般的な原子行動をキャプチャし、人間の動きを身体的にもっともらしいヒューマノイド運動に適応させることです。
この適応は、トレーニングの収束を加速し、新しい動きや挑戦的な動きを処理するときに安定性を向上させます。
その後、特権教師を採用して、提案された報酬を提案して、正確な模倣スキルを学生ポリシーに蒸留します。
シミュレーションと現実世界で実験を実施して、SOTAメソッドよりもSMAPの優位性の安定性とパフォーマンスを実証し、ヒューマノイドロボットで全身制御を進めるための実用的なガイドラインを提供します。

要約(オリジナル)

This paper presents a novel framework that enables real-world humanoid robots to maintain stability while performing human-like motion. Current methods train a policy which allows humanoid robots to follow human body using the massive retargeted human data via reinforcement learning. However, due to the heterogeneity between human and humanoid robot motion, directly using retargeted human motion reduces training efficiency and stability. To this end, we introduce SMAP, a novel whole-body tracking framework that bridges the gap between human and humanoid action spaces, enabling accurate motion mimicry by humanoid robots. The core idea is to use a vector-quantized periodic autoencoder to capture generic atomic behaviors and adapt human motion into physically plausible humanoid motion. This adaptation accelerates training convergence and improves stability when handling novel or challenging motions. We then employ a privileged teacher to distill precise mimicry skills into the student policy with a proposed decoupled reward. We conduct experiments in simulation and real world to demonstrate the superiority stability and performance of SMAP over SOTA methods, offering practical guidelines for advancing whole-body control in humanoid robots.

arxiv情報

著者 Haoyu Zhao,Sixu Lin,Qingwei Ben,Minyue Dai,Hao Fei,Jingbo Wang,Hua Zou,Junting Dong
発行日 2025-05-26 03:37:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SMAP: Self-supervised Motion Adaptation for Physically Plausible Humanoid Whole-body Control はコメントを受け付けていません

Robo-Troj: Attacking LLM-based Task Planners

要約

ロボットは、個々のアクションよりも多くを必要とする目標を達成するためにタスク計画方法が必要です。
最近、大規模な言語モデル(LLMS)は、タスク計画で印象的なパフォーマンスを実証しています。
LLMSは、アクションと目標の説明を使用して、段階的なソリューションを生成できます。
LLMベースのタスク計画の成功にもかかわらず、これらのシステムのセキュリティの側面を研究する研究は限られています。
この論文では、LLMベースのタスクプランナーの最初のマルチトリガーバックドア攻撃であるRobo-Trojを開発します。これは、この作業の主な貢献です。
マルチトリガー攻撃として、ロボトロジはロボットアプリケーションドメインの多様性に対応するように訓練されています。
たとえば、ユニークなトリガーワード、たとえば「Herical」を使用して、特定の悪意のある動作をアクティブにします。たとえば、キッチンロボットの手を切ることができます。
さらに、最も効果的なトリガー単語を選択するための最適化方法を開発します。
LLMベースのプランナーの脆弱性を実証することにより、私たちは安全なロボットシステムの開発を促進することを目指しています。

要約(オリジナル)

Robots need task planning methods to achieve goals that require more than individual actions. Recently, large language models (LLMs) have demonstrated impressive performance in task planning. LLMs can generate a step-by-step solution using a description of actions and the goal. Despite the successes in LLM-based task planning, there is limited research studying the security aspects of those systems. In this paper, we develop Robo-Troj, the first multi-trigger backdoor attack for LLM-based task planners, which is the main contribution of this work. As a multi-trigger attack, Robo-Troj is trained to accommodate the diversity of robot application domains. For instance, one can use unique trigger words, e.g., ‘herical’, to activate a specific malicious behavior, e.g., cutting hand on a kitchen robot. In addition, we develop an optimization method for selecting the trigger words that are most effective. Through demonstrating the vulnerability of LLM-based planners, we aim to promote the development of secured robot systems.

arxiv情報

著者 Mohaiminul Al Nahian,Zainab Altaweel,David Reitano,Sabbir Ahmed,Shiqi Zhang,Adnan Siraj Rakin
発行日 2025-05-26 04:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robo-Troj: Attacking LLM-based Task Planners はコメントを受け付けていません

LLA-MPC: Fast Adaptive Control for Autonomous Racing

要約

急速に変化するタイヤ表面の相互作用の課題に対処する自律レースのためのリアルタイム適応制御フレームワークである、ルックバックおよびルックバックアダプティブモデル予測制御(LLA-MPC)を紹介します。
実質的なデータ収集またはオフライントレーニングを必要とする既存のアプローチとは異なり、LLA-MPCは学習期間なしで即時適応のためにモデルバンクを採用しています。
2つの重要なメカニズムを統合します。最近の車両の動作を評価して、最も正確なモデルを選択し、特定されたダイナミクスに基づいて軌道計画を最適化する見た目の視野を選択します。
選択したモデルと推定摩擦係数が軌道プランナーに組み込まれ、リアルタイムで参照パスを最適化します。
多様なレーシングシナリオ全体の実験は、LLA-MPCが、突然の摩擦遷移中であっても、適応速度と取り扱いの最先端の方法を上回ることを示しています。
学習のない計算効率の良い設計により、迅速な適応が可能になり、多面的な環境での高速自律レースに最適です。

要約(オリジナル)

We present Look-Back and Look-Ahead Adaptive Model Predictive Control (LLA-MPC), a real-time adaptive control framework for autonomous racing that addresses the challenge of rapidly changing tire-surface interactions. Unlike existing approaches requiring substantial data collection or offline training, LLA-MPC employs a model bank for immediate adaptation without a learning period. It integrates two key mechanisms: a look-back window that evaluates recent vehicle behavior to select the most accurate model and a look-ahead horizon that optimizes trajectory planning based on the identified dynamics. The selected model and estimated friction coefficient are then incorporated into a trajectory planner to optimize reference paths in real-time. Experiments across diverse racing scenarios demonstrate that LLA-MPC outperforms state-of-the-art methods in adaptation speed and handling, even during sudden friction transitions. Its learning-free, computationally efficient design enables rapid adaptation, making it ideal for high-speed autonomous racing in multi-surface environments.

arxiv情報

著者 Maitham F. AL-Sunni,Hassan Almubarak,Katherine Horng,John M. Dolan
発行日 2025-05-26 04:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | LLA-MPC: Fast Adaptive Control for Autonomous Racing はコメントを受け付けていません

DiffE2E: Rethinking End-to-End Driving with a Hybrid Action Diffusion and Supervised Policy

要約

エンドツーエンドの学習は、自律運転の変革的なパラダイムとして浮上しています。
ただし、運転行動の本質的にマルチモーダルな性質と、長期尾のシナリオにおける一般化の課題は、堅牢な展開にとって重要な障害のままです。
拡散ベースのエンドツーエンドの自律運転フレームワークであるdiffe2eを提案します。
このフレームワークは、最初に階層的な双方向横断的メカニズムを通じて、マルチセンサー知覚機能のマルチスケールアライメントを実行します。
次に、変圧器アーキテクチャに基づいて、ハイブリッド拡散装置デコーダーの新しいクラスを導入し、拡散ポリシーと監視されたポリシーの両方の強度をシームレスに統合する共同トレーニングパラダイムを採用します。
diffe2eモデルは、拡散が将来の軌跡の分布をキャプチャし、監督が制御可能性と堅牢性を向上させる構造化された潜在スペースを構成します。
グローバルな条件統合モジュールにより、知覚機能が高レベルのターゲットを備えた深い融合を可能にし、軌道生成の品質を大幅に向上させます。
その後、横断的なメカニズムは、統合された特徴とハイブリッド潜在変数との効率的な相互作用を促進し、構造化された出力生成の拡散と監督目標の共同最適化を促進し、最終的にはより堅牢な制御につながります。
実験は、Diffe2EがCarlaの閉ループ評価とNAVSIMベンチマークの両方で最先端のパフォーマンスを達成することを示しています。
提案されている統合された拡散監視ポリシーは、具体化された知能を含むより広いドメインへの拡張の強力な可能性を備えた、ハイブリッドアクション表現のための一般化可能なパラダイムを提供します。
詳細と視覚化は、\ href {https://infinidrive.github.io/diffe2e/} {Project Webサイト}で入手できます。

要約(オリジナル)

End-to-end learning has emerged as a transformative paradigm in autonomous driving. However, the inherently multimodal nature of driving behaviors and the generalization challenges in long-tail scenarios remain critical obstacles to robust deployment. We propose DiffE2E, a diffusion-based end-to-end autonomous driving framework. This framework first performs multi-scale alignment of multi-sensor perception features through a hierarchical bidirectional cross-attention mechanism. It then introduces a novel class of hybrid diffusion-supervision decoders based on the Transformer architecture, and adopts a collaborative training paradigm that seamlessly integrates the strengths of both diffusion and supervised policy. DiffE2E models structured latent spaces, where diffusion captures the distribution of future trajectories and supervision enhances controllability and robustness. A global condition integration module enables deep fusion of perception features with high-level targets, significantly improving the quality of trajectory generation. Subsequently, a cross-attention mechanism facilitates efficient interaction between integrated features and hybrid latent variables, promoting the joint optimization of diffusion and supervision objectives for structured output generation, ultimately leading to more robust control. Experiments demonstrate that DiffE2E achieves state-of-the-art performance in both CARLA closed-loop evaluations and NAVSIM benchmarks. The proposed integrated diffusion-supervision policy offers a generalizable paradigm for hybrid action representation, with strong potential for extension to broader domains including embodied intelligence. More details and visualizations are available at \href{https://infinidrive.github.io/DiffE2E/}{project website}.

arxiv情報

著者 Rui Zhao,Yuze Fan,Ziguo Chen,Fei Gao,Zhenhai Gao
発行日 2025-05-26 04:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DiffE2E: Rethinking End-to-End Driving with a Hybrid Action Diffusion and Supervised Policy はコメントを受け付けていません

Learning Dynamics under Environmental Constraints via Measurement-Induced Bundle Structures

要約

環境(または外部)制約の下で未知のダイナミクスを学習することは、多くのフィールド(最新のロボット工学など)の基本であり、制約情報がローカルで利用可能で不確実な場合に特に挑戦的です。
グローバルな制約を必要とする既存のアプローチ、または確率的フィルタリングを使用することは、局所測定に固有の幾何学的構造を完全に活用していません(センサーなどを使用する)と制約。
このホワイトペーパーでは、測定、制約、および状態空間上のファイバーバンドル構造を介したダイナミクス学習を統合する幾何学的フレームワークを紹介します。
この自然に誘導された幾何学的構造により、局所センシング(または測定)条件に適応する測定対象制御バリア機能が可能になります。
ニューラルODを統合することにより、私たちのフレームワークは、幾何学的制約を維持しながら連続時間のダイナミクスを学習し、学習の収束と制約の質に依存する制約の満足度を学習することを保証します。
幾何学的なフレームワークは、効率的なダイナミクス学習を可能にするだけでなく、強化学習アプローチとの統合のための有望な方向性を示唆しています。
大規模なシミュレーションは、特に限られた不確実なセンシング条件下で、従来の方法よりも学習効率と制約満足度の両方の大幅な改善を示しています。

要約(オリジナル)

Learning unknown dynamics under environmental (or external) constraints is fundamental to many fields (e.g., modern robotics), particularly challenging when constraint information is only locally available and uncertain. Existing approaches requiring global constraints or using probabilistic filtering fail to fully exploit the geometric structure inherent in local measurements (by using, e.g., sensors) and constraints. This paper presents a geometric framework unifying measurements, constraints, and dynamics learning through a fiber bundle structure over the state space. This naturally induced geometric structure enables measurement-aware Control Barrier Functions that adapt to local sensing (or measurement) conditions. By integrating Neural ODEs, our framework learns continuous-time dynamics while preserving geometric constraints, with theoretical guarantees of learning convergence and constraint satisfaction dependent on sensing quality. The geometric framework not only enables efficient dynamics learning but also suggests promising directions for integration with reinforcement learning approaches. Extensive simulations demonstrate significant improvements in both learning efficiency and constraint satisfaction over traditional methods, especially under limited and uncertain sensing conditions.

arxiv情報

著者 Dongzhe Zheng,Wenjie Mei
発行日 2025-05-26 05:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Learning Dynamics under Environmental Constraints via Measurement-Induced Bundle Structures はコメントを受け付けていません

Heavy lifting tasks via haptic teleoperation of a wheeled humanoid

要約

ヒューマノイドロボットは、重いオブジェクトの持ち上げや輸送など、全身調整を必要とするタスクを実行することにより、身体的に厳しい環境で人間の労働者をサポートできます。これらのタスクは、動的なモバイル操作(DMM)と呼ばれ、動的な相互作用の下での移動、操作、姿勢の同時制御が必要です。
このペーパーでは、重いペイロードを運ぶための高さ調整可能な車輪付きヒューマノイドロボットのDMMのテレオ操作フレームワークを紹介します。
ヒューマンマシンインターフェイス(HMI)により、人間の動きをキャプチャし、触覚フィードバックを適用することにより、人間のパイロットからロボットへの全身運動をリターゲティングできます。
パイロットはボディの動きを使用してロボットの姿勢と運動を調節し、腕の動きは操作をガイドします。実際の時間の触覚フィードバックはエンドエフェクターレンチとバランス関連の合図を提供し、人間の知覚とロボット環境の相互作用の間のループを閉じます。
さまざまなレベルのバランス支援を提供するさまざまなテレロコモーションマッピングを評価し、パイロットがペイロード誘導障害に応じて手動または自動的にロボットの無駄を規制できるようにします。
このシステムは、最大2.5 kg(ロボット質量の21%)までのバーベルとボックスの動的な持ち上げを含む実験で検証され、パイロットガイダンスの下での協調的な全身制御、身長の変動、および妨害の取り扱いを実証します。
ビデオデモは、https://youtu.be/jf270_bg1h8?feature = sharedにあります

要約(オリジナル)

Humanoid robots can support human workers in physically demanding environments by performing tasks that require whole-body coordination, such as lifting and transporting heavy objects.These tasks, which we refer to as Dynamic Mobile Manipulation (DMM), require the simultaneous control of locomotion, manipulation, and posture under dynamic interaction forces. This paper presents a teleoperation framework for DMM on a height-adjustable wheeled humanoid robot for carrying heavy payloads. A Human-Machine Interface (HMI) enables whole-body motion retargeting from the human pilot to the robot by capturing the motion of the human and applying haptic feedback. The pilot uses body motion to regulate robot posture and locomotion, while arm movements guide manipulation.Real time haptic feedback delivers end effector wrenches and balance related cues, closing the loop between human perception and robot environment interaction. We evaluate the different telelocomotion mappings that offer varying levels of balance assistance, allowing the pilot to either manually or automatically regulate the robot’s lean in response to payload-induced disturbances. The system is validated in experiments involving dynamic lifting of barbells and boxes up to 2.5 kg (21% of robot mass), demonstrating coordinated whole-body control, height variation, and disturbance handling under pilot guidance. Video demo can be found at: https://youtu.be/jF270_bG1h8?feature=shared

arxiv情報

著者 Amartya Purushottam,Jack Yan,Christopher Yu,Joao Ramos
発行日 2025-05-26 05:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Heavy lifting tasks via haptic teleoperation of a wheeled humanoid はコメントを受け付けていません