DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving

要約

大規模な言語モデル(LLM)の推論とマルチモーダルセンサー融合を組み合わせて、状況的理解と意思決定を強化する新しいマルチエージェント自律運転フレームワークであるDriveAgentを紹介します。
Driveagentは、専門エージェント全体で構成されたLLM駆動型の分析プロセスを含むカメラ、LIDAR、GPS、およびIMUとIMUを含む多様なセンサーモダリティを独自に統合します。
フレームワークは、4つの主要なモジュールで構成されるモジュラーエージェントベースのパイプラインを介して動作します。(i)フィルター処理されたタイムスタンプに基づいた重要なセンサーデータイベントを識別する記述分析エージェント、(ii)車両の状態と動きを共同で評価するLIDARおよび視力エージェントが実施する専用の車両レベル分析、(III)環境合理と原因分析の環境分析と(III)agents agents agents and(and and and and and and and and and)
緊急に意識した意思決定エージェントは、洞察を優先し、タイムリーな操作を提案します。
このモジュール設計により、LLMは特殊な認識と推論エージェントを効果的に調整し、複雑な自律運転シナリオに関するまとまりのある解釈可能な洞察を提供します。
挑戦的な自律運転データセットに関する広範な実験は、DriveAgentがベースライン方法に対する複数のメトリックで優れたパフォーマンスを達成していることを示しています。
これらの結果は、提案されたLLM駆動型マルチエージェントセンサー融合フレームワークの有効性を検証し、自律駆動システムの堅牢性と信頼性を大幅に向上させる可能性を強調しています。

要約(オリジナル)

We introduce DriveAgent, a novel multi-agent autonomous driving framework that leverages large language model (LLM) reasoning combined with multimodal sensor fusion to enhance situational understanding and decision-making. DriveAgent uniquely integrates diverse sensor modalities-including camera, LiDAR, GPS, and IMU-with LLM-driven analytical processes structured across specialized agents. The framework operates through a modular agent-based pipeline comprising four principal modules: (i) a descriptive analysis agent identifying critical sensor data events based on filtered timestamps, (ii) dedicated vehicle-level analysis conducted by LiDAR and vision agents that collaboratively assess vehicle conditions and movements, (iii) environmental reasoning and causal analysis agents explaining contextual changes and their underlying mechanisms, and (iv) an urgency-aware decision-generation agent prioritizing insights and proposing timely maneuvers. This modular design empowers the LLM to effectively coordinate specialized perception and reasoning agents, delivering cohesive, interpretable insights into complex autonomous driving scenarios. Extensive experiments on challenging autonomous driving datasets demonstrate that DriveAgent is achieving superior performance on multiple metrics against baseline methods. These results validate the efficacy of the proposed LLM-driven multi-agent sensor fusion framework, underscoring its potential to substantially enhance the robustness and reliability of autonomous driving systems.

arxiv情報

著者 Xinmeng Hou,Wuqi Wang,Long Yang,Hao Lin,Jinglun Feng,Haigen Min,Xiangmo Zhao
発行日 2025-05-04 14:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.RO | DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving はコメントを受け付けていません

Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions

要約

Vision-Language-action(VLA)モデルは、物理的な世界でのジェネラリストのロボット操作に大きな期待を示しています。
ただし、既存のモデルは、ロボットの観察とテキストのみの命令に制限されており、デジタル世界の基礎モデルにおける最近の進歩によって有効になったインターリーブマルチモーダル命令の柔軟性がありません。
この論文では、インターリーブの画像テキスト命令を理解し、物理世界で連続的なアクションシーケンスを直接生成できる最初のフレームワークであるインターリーブVLAを紹介します。
最小限の変更と強力なゼロショット一般化を備えた最先端のVLAモデルを拡張する柔軟なモデルに依存しないパラダイムを提供します。
インターリーブVLAを実現する上での重要な課題は、大規模なインターリーブ具体化されたデータセットがないことです。
このギャップを埋めるために、オープンX編集の現実世界のデータセットからテキストのみの命令をインターリーブ画像テキスト命令に変換する自動パイプラインを開発し、最初の大規模な現実世界のインターリーブされた具体化された210Kエピソードを使用します。
シミュレーションベンチマークとレアルロボット実験に関する包括的な評価を通じて、インターリーブVLAが大きな利点を提供することを実証します。1)目に見えないオブジェクトへの一般化を最大のベースラインと比較して2-3Xで改善します、2)
さらに、インターリーブVLAの強力なゼロショットパフォーマンスの背後にある要因を分析し、インターリーブパラダイムが不均一なデータセットとインターネットからのものを含む多様な命令画像を効果的に活用していることを示しています。
モデルとデータセットはオープンソースが施されます。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown great promise for generalist robotic manipulation in the physical world. However, existing models are restricted to robot observations and text-only instructions, lacking the flexibility of interleaved multimodal instructions enabled by recent advances in foundation models in the digital world. In this paper, we present Interleave-VLA, the first framework capable of comprehending interleaved image-text instructions and directly generating continuous action sequences in the physical world. It offers a flexible, model-agnostic paradigm that extends state-of-the-art VLA models with minimal modifications and strong zero-shot generalization. A key challenge in realizing Interleave-VLA is the absence of large-scale interleaved embodied datasets. To bridge this gap, we develop an automatic pipeline that converts text-only instructions from real-world datasets in Open X-Embodiment into interleaved image-text instructions, resulting in the first large-scale real-world interleaved embodied dataset with 210k episodes. Through comprehensive evaluation on simulation benchmarks and real-robot experiments, we demonstrate that Interleave-VLA offers significant benefits: 1) it improves out-of-domain generalization to unseen objects by 2-3x compared to state-of-the-art baselines, 2) supports flexible task interfaces, and 3) handles diverse user-provided image instructions in a zero-shot manner, such as hand-drawn sketches. We further analyze the factors behind Interleave-VLA’s strong zero-shot performance, showing that the interleaved paradigm effectively leverages heterogeneous datasets and diverse instruction images, including those from the Internet, which demonstrates strong potential for scaling up. Our model and dataset will be open-sourced.

arxiv情報

著者 Cunxin Fan,Xiaosong Jia,Yihang Sun,Yixiao Wang,Jianglan Wei,Ziyang Gong,Xiangyu Zhao,Masayoshi Tomizuka,Xue Yang,Junchi Yan,Mingyu Ding
発行日 2025-05-04 15:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions はコメントを受け付けていません

CrayonRobo: Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

要約

ロボットでは、言語、目標画像、目標ビデオなど、さまざまなモダリティを通じてタスクの目標を伝えることができます。
ただし、自然言語は曖昧な場合がありますが、画像やビデオは過度に詳細な仕様を提供する場合があります。
これらの課題に取り組むために、包括的なマルチモーダルプロンプトを活用するCrayonroboを紹介し、それを簡単に低レベルのアクションと高レベルの計画の両方を簡単に伝えます。
具体的には、タスクシーケンスの各キーフレームについて、この方法では、RGB画像にオーバーレイされたシンプルで表現力豊かな2D視覚プロンプトの手動または自動生成が可能になります。
これらのプロンプトは、エンドエフェクターのポーズや接触後の望ましい動きの方向など、必要なタスク目標を表します。
モデルがこれらの視覚言語プロンプトを解釈し、SE(3)スペースの対応する接触ポーズと移動方向を予測できるようにするトレーニング戦略を開発します。
さらに、すべてのキーフレームステップを順次実行することにより、モデルは長老のタスクを完了することができます。
このアプローチは、モデルがタスクの目的を明示的に理解するのに役立つだけでなく、簡単に解釈できるプロンプトを提供することにより、目に見えないタスクの堅牢性を高めます。
シミュレートされた環境と現実世界の両方の環境での方法を評価し、その堅牢な操作能力を実証します。

要約(オリジナル)

In robotic, task goals can be conveyed through various modalities, such as language, goal images, and goal videos. However, natural language can be ambiguous, while images or videos may offer overly detailed specifications. To tackle these challenges, we introduce CrayonRobo that leverages comprehensive multi-modal prompts that explicitly convey both low-level actions and high-level planning in a simple manner. Specifically, for each key-frame in the task sequence, our method allows for manual or automatic generation of simple and expressive 2D visual prompts overlaid on RGB images. These prompts represent the required task goals, such as the end-effector pose and the desired movement direction after contact. We develop a training strategy that enables the model to interpret these visual-language prompts and predict the corresponding contact poses and movement directions in SE(3) space. Furthermore, by sequentially executing all key-frame steps, the model can complete long-horizon tasks. This approach not only helps the model explicitly understand the task objectives but also enhances its robustness on unseen tasks by providing easily interpretable prompts. We evaluate our method in both simulated and real-world environments, demonstrating its robust manipulation capabilities.

arxiv情報

著者 Xiaoqi Li,Lingyun Xu,Mingxu Zhang,Jiaming Liu,Yan Shen,Iaroslav Ponomarenko,Jiahui Xu,Liang Heng,Siyuan Huang,Shanghang Zhang,Hao Dong
発行日 2025-05-04 15:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CrayonRobo: Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation はコメントを受け付けていません

Global Contact-Rich Planning with Sparsity-Rich Semidefinite Relaxations

要約

多項式最適化(POP)と見なされると、接触が豊富なモーション計画もスパースリッチであることを示します。
すべてのポップに一般的な相関および用語のスパースパターンだけでなく、ロボットの運動学的構造と接触モードの分離性からの特殊なスパースパターンも活用できます。
このようなスパース性により、高次が疎なセミドフィニットプログラミング(SDPS)の緩和の設計が可能になります – ラセレの瞬間と正方形の階層の合計を構築すること – (i)は、株式のSDPソルバーで数秒で解決できます。
シミュレーション(プッシュボット、プッシュボックス、障害物を備えたプッシュボックス、プラナーハンドのプッシュボックス)と現実世界(プッシュT)の両方で広範な実験を通じて、凸型SDP緩和を使用してグローバルな接触リッチモーションプランを生成する力を示します。
独立した関心の貢献として、PythonとMatlabの両方にインターフェイスを備えたC ++で実装されたスパース多項式最適化ツールボックス(SPOT)をリリースします。

要約(オリジナル)

We show that contact-rich motion planning is also sparsity-rich when viewed as polynomial optimization (POP). We can exploit not only the correlative and term sparsity patterns that are general to all POPs, but also specialized sparsity patterns from the robot kinematic structure and the separability of contact modes. Such sparsity enables the design of high-order but sparse semidefinite programming (SDPs) relaxations–building upon Lasserre’s moment and sums of squares hierarchy–that (i) can be solved in seconds by off-the-shelf SDP solvers, and (ii) compute near globally optimal solutions to the nonconvex contact-rich planning problems with small certified suboptimality. Through extensive experiments both in simulation (Push Bot, Push Box, Push Box with Obstacles, and Planar Hand) and real world (Push T), we demonstrate the power of using convex SDP relaxations to generate global contact-rich motion plans. As a contribution of independent interest, we release the Sparse Polynomial Optimization Toolbox (SPOT)–implemented in C++ with interfaces to both Python and Matlab–that automates sparsity exploitation for robotics and beyond.

arxiv情報

著者 Shucheng Kang,Guorui Liu,Heng Yang
発行日 2025-05-04 17:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Global Contact-Rich Planning with Sparsity-Rich Semidefinite Relaxations はコメントを受け付けていません

Prompt-responsive Object Retrieval with Memory-augmented Student-Teacher Learning

要約

入力プロンプトに対応する構築モデルは、機械学習の変革的な変化を表します。
このパラダイムは、クラッターの中でターゲットを絞った操作など、ロボット工学の問題に重大な可能性を秘めています。
この作業では、迅速な基礎モデルと補強学習(RL)を組み合わせて、ロボットが迅速な応答的な方法で器用な操作タスクを実行できるようにする新しいアプローチを提示します。
既存の方法は、高レベルのコマンドをきめ細かい器用な制御でリンクするのに苦労しています。
このギャップには、メモリが整った学生と教師の学習フレームワークで対処します。
ユーザープロンプトから関心のあるオブジェクトを推測するために、Perception BackboneとしてSegment-Anything 2(SAM 2)モデルを使用します。
検出は不完全ですが、それらの時間シーケンスは、記憶力モデルによる暗黙の状態推定のための豊富な情報を提供します。
私たちのアプローチは、乱雑なシーンからオブジェクトを選ぶ際に実証された迅速な応答ポリシーを成功裏に学習します。
ビデオとコードはhttps://memory-student-teacher.github.ioで入手できます

要約(オリジナル)

Building models responsive to input prompts represents a transformative shift in machine learning. This paradigm holds significant potential for robotics problems, such as targeted manipulation amidst clutter. In this work, we present a novel approach to combine promptable foundation models with reinforcement learning (RL), enabling robots to perform dexterous manipulation tasks in a prompt-responsive manner. Existing methods struggle to link high-level commands with fine-grained dexterous control. We address this gap with a memory-augmented student-teacher learning framework. We use the Segment-Anything 2 (SAM 2) model as a perception backbone to infer an object of interest from user prompts. While detections are imperfect, their temporal sequence provides rich information for implicit state estimation by memory-augmented models. Our approach successfully learns prompt-responsive policies, demonstrated in picking objects from cluttered scenes. Videos and code are available at https://memory-student-teacher.github.io

arxiv情報

著者 Malte Mosbach,Sven Behnke
発行日 2025-05-04 19:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Prompt-responsive Object Retrieval with Memory-augmented Student-Teacher Learning はコメントを受け付けていません

LiDAR-EDIT: LiDAR Data Generation by Editing the Object Layouts in Real-World Scenes

要約

自律運転のために合成ライダーデータを生成するための新しいパラダイムであるLidar-Editを提示します。
私たちのフレームワークは、バックグラウンド環境のリアリズムを維持しながら、新しいオブジェクトレイアウトを導入することにより、実際のLidarスキャンを編集します。
Lidar-Editは、Lidar Pointクラウドをゼロから生成するエンドツーエンドのフレームワークと比較して、オブジェクトの数、タイプ、ポーズなど、オブジェクトレイアウトを完全に制御し、元の現実世界の背景のほとんどを保持します。
私たちの方法は、生成されたデータのオブジェクトラベルも提供します。
新しいビュー合成技術と比較して、私たちのフレームワークは、オブジェクトレイアウトが元の現実世界シーンとは大きく異なる反事実的シナリオを作成することを可能にします。
Lidar-Editは、球状のボクセル化を使用して、構造によって生成されたポイント雲の正しいLidar射影幾何学を強制します。
オブジェクトの除去と挿入中、生成モデルが使用され、元の実際のライダースキャンに閉塞された目に見えない背景およびオブジェクトパーツを埋めることができます。
実験結果は、私たちのフレームワークがダウンストリームタスクに実用的な価値を持つ現実的なライダースキャンを生成することを示しています。

要約(オリジナル)

We present LiDAR-EDIT, a novel paradigm for generating synthetic LiDAR data for autonomous driving. Our framework edits real-world LiDAR scans by introducing new object layouts while preserving the realism of the background environment. Compared to end-to-end frameworks that generate LiDAR point clouds from scratch, LiDAR-EDIT offers users full control over the object layout, including the number, type, and pose of objects, while keeping most of the original real-world background. Our method also provides object labels for the generated data. Compared to novel view synthesis techniques, our framework allows for the creation of counterfactual scenarios with object layouts significantly different from the original real-world scene. LiDAR-EDIT uses spherical voxelization to enforce correct LiDAR projective geometry in the generated point clouds by construction. During object removal and insertion, generative models are employed to fill the unseen background and object parts that were occluded in the original real LiDAR scans. Experimental results demonstrate that our framework produces realistic LiDAR scans with practical value for downstream tasks.

arxiv情報

著者 Shing-Hei Ho,Bao Thach,Minghan Zhu
発行日 2025-05-04 20:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | LiDAR-EDIT: LiDAR Data Generation by Editing the Object Layouts in Real-World Scenes はコメントを受け付けていません

Robust Localization, Mapping, and Navigation for Quadruped Robots

要約

四足ロボットは現在、強力な補強学習コントローラーと安価で堅牢な商用プラットフォームの可用性のおかげで、ロボット研究のための広範なプラットフォームです。
ただし、現実の世界でテクノロジーの採用を拡大するには、深度カメラなどの低コストセンサーにのみ依存して、堅牢なナビゲーションスタックが必要です。
この論文では、低コストの象限ロボットの堅牢なローカリゼーション、マッピング、およびナビゲーションシステムに向けた最初のステップを紹介します。
この目的を追求して、接触支援の運動学的、視覚的inertial延長、および深さ安定化された視力を組み合わせて、システムの安定性と精度を向上させます。
シミュレーションと2つの異なる現実世界の四足動物プラットフォームでの結果は、システムが環境の正確な2Dマップを生成し、自体を堅牢にローカライズし、自律的にナビゲートできることを示しています。
さらに、システムの重要なコンポーネントの詳細なアブレーション研究と、それらのローカリゼーション精度への影響を提示します。
ビデオ、コード、および追加の実験は、プロジェクトWebサイトhttps://sites.google.com/view/low-cost-quadruped-slamにあります。

要約(オリジナル)

Quadruped robots are currently a widespread platform for robotics research, thanks to powerful Reinforcement Learning controllers and the availability of cheap and robust commercial platforms. However, to broaden the adoption of the technology in the real world, we require robust navigation stacks relying only on low-cost sensors such as depth cameras. This paper presents a first step towards a robust localization, mapping, and navigation system for low-cost quadruped robots. In pursuit of this objective we combine contact-aided kinematic, visual-inertial odometry, and depth-stabilized vision, enhancing stability and accuracy of the system. Our results in simulation and two different real-world quadruped platforms show that our system can generate an accurate 2D map of the environment, robustly localize itself, and navigate autonomously. Furthermore, we present in-depth ablation studies of the important components of the system and their impact on localization accuracy. Videos, code, and additional experiments can be found on the project website: https://sites.google.com/view/low-cost-quadruped-slam

arxiv情報

著者 Dyuman Aditya,Junning Huang,Nico Bohlinger,Piotr Kicki,Krzysztof Walas,Jan Peters,Matteo Luperto,Davide Tateo
発行日 2025-05-04 21:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robust Localization, Mapping, and Navigation for Quadruped Robots はコメントを受け付けていません

On the Need for a Statistical Foundation in Scenario-Based Testing of Autonomous Vehicles

要約

シナリオベースのテストは、自動運転車(AVS)の安全性の一般的な方法として浮上しており、ハイリスクシナリオに焦点を当てることにより、マイルベースのテストに代わるより効率的な代替品を提供しています。
ただし、停止ルール、残留リスクの推定、デバッグの有効性、およびシミュレーションの忠実度が安全請求に及ぼす影響に関して、基本的な疑問が生じています。
この論文は、これらの課題に対処し、厳密な安全保証を可能にするためには、厳格な統計的基盤が不可欠であると主張しています。
AVテストと従来のソフトウェアテストの方法論の類似点を描画することにより、共有された研究ギャップと再利用可能なソリューションを特定します。
概念実証モデルを提案して、シナリオごとの障害の確率を定量化し(PFS)、さまざまな条件下でテストの有効性を評価します。
私たちの分析により、シナリオに基づいたテストもマイルベースのテストも、他のシナリオよりも普遍的に優れていないことが明らかになりました。
さらに、合成および実世界のテスト結果の整合を証明するための新しいメトリックであるリスク推定忠実度(REF)を導入し、シミュレーションベースの安全請求が統計的に防御可能であることを保証します。

要約(オリジナル)

Scenario-based testing has emerged as a common method for autonomous vehicles (AVs) safety, offering a more efficient alternative to mile-based testing by focusing on high-risk scenarios. However, fundamental questions persist regarding its stopping rules, residual risk estimation, debug effectiveness, and the impact of simulation fidelity on safety claims. This paper argues that a rigorous statistical foundation is essential to address these challenges and enable rigorous safety assurance. By drawing parallels between AV testing and traditional software testing methodologies, we identify shared research gaps and reusable solutions. We propose proof-of-concept models to quantify the probability of failure per scenario (pfs) and evaluate testing effectiveness under varying conditions. Our analysis reveals that neither scenario-based nor mile-based testing universally outperforms the other. Furthermore, we introduce Risk Estimation Fidelity (REF), a novel metric to certify the alignment of synthetic and real-world testing outcomes, ensuring simulation-based safety claims are statistically defensible.

arxiv情報

著者 Xingyu Zhao,Robab Aghazadeh-Chakherlou,Chih-Hong Cheng,Peter Popov,Lorenzo Strigini
発行日 2025-05-04 22:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | On the Need for a Statistical Foundation in Scenario-Based Testing of Autonomous Vehicles はコメントを受け付けていません

Generalized Animal Imitator: Agile Locomotion with Versatile Motion Prior

要約

動物の俊敏性は、特にランニング、ターニング、ジャンプ、逆流などの複雑な活動において、ロボットシステム設計の模範として存在します。
この一連の動作を脚のロボットシステムに転送すると、重要な問い合わせが紹介されます。ロボットはどのようにして複数の移動動作を同時に学習できますか?
ロボットは、スムーズな移行でこれらのタスクをどのように実行できますか?
これらのスキルを幅広いアプリケーションに統合する方法は?
このペーパーでは、高度なロボットアプリケーションに適したさまざまなアジャイル移動タスクを組み込むために設計された強化学習フレームワークである、多目的なインストラクタブルモーション(VIM)を紹介します。
私たちのフレームワークにより、脚のあるロボットは、動物の動きと手動で設計された動きを模倣することにより、多様な機敏な低レベルのスキルを学ぶことができます。
私たちの機能は、さまざまなスキルを採用するロボットの能力をガイドし、スタイリライゼーションの報酬は、ロボットの動きが参照モーションと一致することを保証します。
VIMフレームワークの評価は、シミュレーションと実世界の両方に及びます。
私たちのフレームワークにより、ロボットは、現実世界の単一の学習ベースのコントローラーを使用して、多様なアジャイルな移動スキルを同時に学ぶことができます。
ビデオは当社のウェブサイト:https://rchalyang.github.io/vim/にあります

要約(オリジナル)

The agility of animals, particularly in complex activities such as running, turning, jumping, and backflipping, stands as an exemplar for robotic system design. Transferring this suite of behaviors to legged robotic systems introduces essential inquiries: How can a robot learn multiple locomotion behaviors simultaneously? How can the robot execute these tasks with a smooth transition? How to integrate these skills for wide-range applications? This paper introduces the Versatile Instructable Motion prior (VIM) – a Reinforcement Learning framework designed to incorporate a range of agile locomotion tasks suitable for advanced robotic applications. Our framework enables legged robots to learn diverse agile low-level skills by imitating animal motions and manually designed motions. Our Functionality reward guides the robot’s ability to adopt varied skills, and our Stylization reward ensures that robot motions align with reference motions. Our evaluations of the VIM framework span both simulation and the real world. Our framework allows a robot to concurrently learn diverse agile locomotion skills using a single learning-based controller in the real world. Videos can be found on our website: https://rchalyang.github.io/VIM/

arxiv情報

著者 Ruihan Yang,Zhuoqun Chen,Jianhan Ma,Chongyi Zheng,Yiyu Chen,Quan Nguyen,Xiaolong Wang
発行日 2025-05-04 22:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Generalized Animal Imitator: Agile Locomotion with Versatile Motion Prior はコメントを受け付けていません

Dexterous Contact-Rich Manipulation via the Contact Trust Region

要約

コンタクトが豊富な操作のためのコンタクトダイナミクスの良いローカル説明は何ですか?また、このローカルな説明はどこで信頼できますか?
多くのアプローチは、しばしば楕円形の信頼領域とのダイナミクスのテイラー近似に依存していることがよくありますが、そのようなアプローチは接触の一方的な性質と根本的に矛盾していると主張します。
治療薬として、コンタクトトラスト地域(CTR)を提示します。これは、計算のために効率的なままでありながら、接触の一方的な性質を捉えています。
CTRを使用すると、最初に、地元の接触豊富な計画を合成できるモデル予測制御(MPC)アルゴリズムを開発します。
次に、ローカルMPCプランを縫い合わせて、効率的かつ器用な接触リッチ操作を可能にすることにより、この機能をグローバルに計画する能力を拡張します。
当社の方法のパフォーマンスを検証するために、平面IIWabimanualシステムと3Dアレグロハンドシステムの2つの接触豊富なシステムで、高忠実度シミュレーションとハードウェアの両方で包括的な評価を実行します。
どちらのシステムでも、この方法では、接触豊富な操作に対する既存のRLベースのアプローチに代わる、大幅に低い計算の代替品を提供します。
特に、ロードマップの形で、Allegroの手の操作ポリシーは、CPUのみを使用して標準のラップトップでオフラインで構築するのに10分未満かかり、オンラインの推論はわずか数秒かかります。
実験データ、ビデオ、コードは、ctr.theaiinstitute.comで入手できます。

要約(オリジナル)

What is a good local description of contact dynamics for contact-rich manipulation, and where can we trust this local description? While many approaches often rely on the Taylor approximation of dynamics with an ellipsoidal trust region, we argue that such approaches are fundamentally inconsistent with the unilateral nature of contact. As a remedy, we present the Contact Trust Region (CTR), which captures the unilateral nature of contact while remaining efficient for computation. With CTR, we first develop a Model-Predictive Control (MPC) algorithm capable of synthesizing local contact-rich plans. Then, we extend this capability to plan globally by stitching together local MPC plans, enabling efficient and dexterous contact-rich manipulation. To verify the performance of our method, we perform comprehensive evaluations, both in high-fidelity simulation and on hardware, on two contact-rich systems: a planar IiwaBimanual system and a 3D AllegroHand system. On both systems, our method offers a significantly lower-compute alternative to existing RL-based approaches to contact-rich manipulation. In particular, our Allegro in-hand manipulation policy, in the form of a roadmap, takes fewer than 10 minutes to build offline on a standard laptop using just its CPU, with online inference taking just a few seconds. Experiment data, video and code are available at ctr.theaiinstitute.com.

arxiv情報

著者 H. J. Terry Suh,Tao Pang,Tong Zhao,Russ Tedrake
発行日 2025-05-04 23:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dexterous Contact-Rich Manipulation via the Contact Trust Region はコメントを受け付けていません