ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image

要約

視覚ベースの触覚センシングは、知覚、再構築、ロボット操作に広く使用されてきました。
ただし、センサーとオブジェクトの相互作用とセンサーインスタンス全体の矛盾の局所的な性質により、大規模な触覚データの収集はコストのままです。
シミュレーションや自由形式の触覚生成などの触覚データをスケーリングするための既存のアプローチは、非現実的な出力と下流タスクへの移転性が低いことがよくあります。
これに対処するために、単一の参照触覚画像、接触力、および接触位置に条件付けられた現実的な触覚画像を生成する2段階制御可能なフレームワークであるControlTACを提案します。
これらの物理的事前はコントロール入力として、ControlTacは、効果的なデータ増強に使用できる物理的にもっともらしい触覚画像を生成します。
3つのダウンストリームタスクの実験を通じて、ControlTACが触覚データセットを効果的に増強し、一貫した利益につながることを実証します。
私たちの3つの現実世界の実験は、私たちのアプローチの実用的な有用性をさらに検証します。
プロジェクトページ:https://dongyuluo.github.io/controltac。

要約(オリジナル)

Vision-based tactile sensing has been widely used in perception, reconstruction, and robotic manipulation. However, collecting large-scale tactile data remains costly due to the localized nature of sensor-object interactions and inconsistencies across sensor instances. Existing approaches to scaling tactile data, such as simulation and free-form tactile generation, often suffer from unrealistic output and poor transferability to downstream tasks. To address this, we propose ControlTac, a two-stage controllable framework that generates realistic tactile images conditioned on a single reference tactile image, contact force, and contact position. With those physical priors as control input, ControlTac generates physically plausible and varied tactile images that can be used for effective data augmentation. Through experiments on three downstream tasks, we demonstrate that ControlTac can effectively augment tactile datasets and lead to consistent gains. Our three real-world experiments further validate the practical utility of our approach. Project page: https://dongyuluo.github.io/controltac.

arxiv情報

著者 Dongyu Luo,Kelin Yu,Amir-Hossein Shahidzadeh,Cornelia Fermüller,Yiannis Aloimonos,Ruohan Gao
発行日 2025-05-28 02:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image はコメントを受け付けていません

Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

要約

Vision-Language-action(VLA)モデルは、ロボット工学の次世代モデルとして登場しています。
ただし、強力な訓練を受けた視覚言語モデル(VLMS)を活用しているにもかかわらず、既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失います。
一般化可能なVLAモデルは、VLMのコアコンピテンシーを維持し、拡張する必要があると主張します。1)オープンワールドの具体化された推論 – VLAはVLMからの知識を継承する必要があります。
この作業では、実用的な推論を可能にしながらVLMの元の強みを維持するように設計された専門的な3段階トレーニングパイプラインと組み合わせた、新規の専門家のVLAモデルと組み合わせたChatVLA-2を紹介します。
アプローチを検証するために、ロボットがホワイトボードに書かれた数学の問題を解釈し、テーブルから対応する番号カードを選択して方程式を解決する数学の一致タスクを設計します。
驚くべきことに、私たちの方法は、これらの能力がVLA内で明示的に訓練されていないにもかかわらず、例外的な数学的推論とOCR機能を示しています。
さらに、VLAは強力な空間推論スキルを持っていることを実証し、以前に見えなかったオブジェクトを含む新しい方向性の指示を解釈できるようにします。
全体として、私たちの方法は、OpenVLA、DexVLA、Pi-Zeroなどの最先端の模倣学習方法を大幅に上回る推論と理解能力を示しています。
この作業は、堅牢な推論能力に恵まれた、真に一般化可能なロボット基礎モデルの開発に向けた実質的な進歩を表しています。

要約(オリジナル)

Vision-language-action (VLA) models have emerged as the next generation of models in robotics. However, despite leveraging powerful pre-trained Vision-Language Models (VLMs), existing end-to-end VLA systems often lose key capabilities during fine-tuning as the model adapts to specific robotic tasks. We argue that a generalizable VLA model should retain and expand upon the VLM’s core competencies: 1) Open-world embodied reasoning – the VLA should inherit the knowledge from VLM, i.e., recognize anything that the VLM can recognize, capable of solving math problems, possessing visual-spatial intelligence, 2) Reasoning following – effectively translating the open-world reasoning into actionable steps for the robot. In this work, we introduce ChatVLA-2, a novel mixture-of-expert VLA model coupled with a specialized three-stage training pipeline designed to preserve the VLM’s original strengths while enabling actionable reasoning. To validate our approach, we design a math-matching task wherein a robot interprets math problems written on a whiteboard and picks corresponding number cards from a table to solve equations. Remarkably, our method exhibits exceptional mathematical reasoning and OCR capabilities, despite these abilities not being explicitly trained within the VLA. Furthermore, we demonstrate that the VLA possesses strong spatial reasoning skills, enabling it to interpret novel directional instructions involving previously unseen objects. Overall, our method showcases reasoning and comprehension abilities that significantly surpass state-of-the-art imitation learning methods such as OpenVLA, DexVLA, and pi-zero. This work represents a substantial advancement toward developing truly generalizable robotic foundation models endowed with robust reasoning capacities.

arxiv情報

著者 Zhongyi Zhou,Yichen Zhu,Junjie Wen,Chaomin Shen,Yi Xu
発行日 2025-05-28 02:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge はコメントを受け付けていません

Mastering Agile Tasks with Limited Trials

要約

具体化されたロボットは、すでに多くの現実世界の操作タスクを処理できます。
ただし、他の特定の現実世界のタスク(たとえば、バスケットボールをフープに撃つ)は非常に機敏で、高い実行精度を必要とし、主に準静的操作タスクのために設計された方法に追加の課題を提示します。
これにより、高価なデータ収集、面倒な報酬設計、または複雑なモーション計画の取り組みが増加します。
ただし、このようなタスクは、人間にとってはるかに挑戦的ではありません。
初心者のバスケットボール選手は、通常、最初の成功したショットを作るために$ \ sim $ 10の試みを必要とし、過去の結果に基づいてモーションを繰り返し調整することにより、$ \ sim $ 10の試みを最初に成功させようとします。
この人間の学習パラダイムに触発されて、私たちは、特定の目標に到達するまで、学習された以前のモーションパターン内での実世界の試験を少数の試験で繰り返し改良する単純でスケーラブルなアプローチである、適応拡散アクションプランニン(ADAP)アルゴリズムを提案します。
実験により、ADAPは、10回未満の試行でバスケットボールをフープに投げるなど、現実世界で直接人間レベルの精度と効率を備えた幅広い目標条件のアジャイルダイナミックタスクを学習し、達成できることが実証されました。
プロジェクトWebサイト:https://adap-robotics.github.io/。

要約(オリジナル)

Embodied robots nowadays can already handle many real-world manipulation tasks. However, certain other real-world tasks (e.g., shooting a basketball into a hoop) are highly agile and require high execution precision, presenting additional challenges for methods primarily designed for quasi-static manipulation tasks. This leads to increased efforts in costly data collection, laborious reward design, or complex motion planning. Such tasks, however, are far less challenging for humans. Say a novice basketball player typically needs only $\sim$10 attempts to make their first successful shot, by roughly imitating a motion prior and then iteratively adjusting their motion based on the past outcomes. Inspired by this human learning paradigm, we propose the Adaptive Diffusion Action Plannin (ADAP) algorithm, a simple & scalable approach which iteratively refines its action plan by few real-world trials within a learned prior motion pattern, until reaching a specific goal. Experiments demonstrated that ADAP can learn and accomplish a wide range of goal-conditioned agile dynamic tasks with human-level precision and efficiency directly in real-world, such as throwing a basketball into the hoop in fewer than 10 trials. Project website:https://adap-robotics.github.io/ .

arxiv情報

著者 Yihang Hu,Pingyue Sheng,Shengjie Wang,Yang Gao
発行日 2025-05-28 03:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Mastering Agile Tasks with Limited Trials はコメントを受け付けていません

MSC-LIO: An MSCKF-Based LiDAR-Inertial Odometry with Same-Plane Cluster Tracking

要約

マルチステート制約カルマンフィルター(MSCKF)は、同様の精度で視覚ベースの匂い測定のグラフ最適化よりも効率的であることが証明されています。
ただし、LIDARベースの匂いについては、適切に考慮されていても研究されていません。
この論文では、MSC-Lioという名前のMSCKFフレームワークに基づいた、めくらに密着したLidar-inertial odometryを提案します。
明示的な特徴抽出なしの効率的なLIDAR同一平面クラスター(LSPC)追跡方法は、フレーム間データの関連付けに存在します。
追跡されたLSPCは、マルチステート制約を構築するLSPC測定モデルを構築するために使用されます。
その上、提案されたLSPC追跡方法から導出される効果的なポイント速度ベースのLidar-Imu Time-Delay(LITD)推定法を提案します。
提案された方法の有効性と堅牢性を検証するために、パブリックデータセットと実際の環境の両方で広範な実験を実施しました。
結果は、提案されたMSC-LIOが最先端の方法と比較してより高い精度と効率をもたらすことを示しています。
アブレーション実験は、LSPC追跡によりデータ関連効率がほぼ3倍改善され、提案されたLITD推定方法がLITDを効果的かつ正確に推定できることを示しています。
その上、MSC-LioはEdgeデバイスに実装され、優れたリアルタイムパフォーマンスを実証しました。

要約(オリジナル)

The multi-state constraint Kalman filter (MSCKF) has been proven to be more efficient than graph optimization for visual-based odometry while with similar accuracy. However, it has not been adequately considered and studied for LiDAR-based odometry. In this paper, we propose a novel tightly-coupled LiDAR-inertial odometry based on the MSCKF framework, named MSC-LIO. An efficient LiDAR same-plane cluster (LSPC) tracking method, without explicit feature extraction, is present for frame-to-frame data associations. The tracked LSPC is used to build an LSPC measurement model that constructs multi-state constraints. Besides, we propose an effective point-velocity-based LiDAR-IMU time-delay (LITD) estimation method, which is derived from the proposed LSPC tracking method. To validate the effectiveness and robustness of the proposed method, we conducted extensive experiments on both public datasets and real-world environments. The results demonstrate that the proposed MSC-LIO yields higher accuracy and efficiency compared to the state-of-the-art methods. Ablation experiments indicate that the data-association efficiency is improved by nearly 3 times with the LSPC tracking, and the proposed LITD estimation method can effectively and accurately estimate the LITD. Besides, MSC-LIO was implemented on an edge device and demonstrated excellent real-time performance.

arxiv情報

著者 Tisheng Zhang,Man Yuan,Linfu Wei,Hailiang Tang,Xiaoji Niu
発行日 2025-05-28 03:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MSC-LIO: An MSCKF-Based LiDAR-Inertial Odometry with Same-Plane Cluster Tracking はコメントを受け付けていません

MR-ULINS: A Tightly-Coupled UWB-LiDAR-Inertial Estimator with Multi-Epoch Outlier Rejection

要約

Lidar-inertial Odometry(LIO)と超幅帯域(UWB)は、グローバルナビゲーション衛星システム(GNSS)環境でのドリフトレスポジショニングを実現するために統合されています。
ただし、UWBは、系統的範囲エラー(クロックドリフトやアンテナ位相中心オフセットなど)および非表示(NLOS)信号の影響を受ける可能性があり、その結果、堅牢性が低下します。
この研究では、UWB範囲、LIDARフレームからフレーム、およびIMU測定値をマルチステート制約カルマンフィルター(MSCKF)フレームワーク内で密接に統合するUWBライダー型推定器(MR-Ulins)を提案します。
系統的範囲エラーは、オンラインで推定および補償されるように正確にモデル化されています。
その上、LIOの相対的な精度を利用することにより、UWB NLOのマルチエポック外れ値拒否アルゴリズムを提案します。
具体的には、LIOの相対的な軌跡を使用して、スライディングウィンドウ内のすべての範囲測定の一貫性を検証します。
広範な実験結果は、MR-Ulinsが深刻なNLOS干渉を伴う複雑な屋内環境で約0.1 mの位置決め精度を達成することを示しています。
アブレーション実験は、オンラインの推定とマルチエポック外れ値の拒絶がポジショニングの精度を効果的に改善できることを示しています。
それに加えて、MR-Ulinsは、Lidar脱色シーンと、予備のベースステーションを備えたUWBに挑戦する条件で高い精度と堅牢性を維持しています。

要約(オリジナル)

The LiDAR-inertial odometry (LIO) and the ultra-wideband (UWB) have been integrated together to achieve driftless positioning in global navigation satellite system (GNSS)-denied environments. However, the UWB may be affected by systematic range errors (such as the clock drift and the antenna phase center offset) and non-line-of-sight (NLOS) signals, resulting in reduced robustness. In this study, we propose a UWB-LiDAR-inertial estimator (MR-ULINS) that tightly integrates the UWB range, LiDAR frame-to-frame, and IMU measurements within the multi-state constraint Kalman filter (MSCKF) framework. The systematic range errors are precisely modeled to be estimated and compensated online. Besides, we propose a multi-epoch outlier rejection algorithm for UWB NLOS by utilizing the relative accuracy of the LIO. Specifically, the relative trajectory of the LIO is employed to verify the consistency of all range measurements within the sliding window. Extensive experiment results demonstrate that MR-ULINS achieves a positioning accuracy of around 0.1 m in complex indoor environments with severe NLOS interference. Ablation experiments show that the online estimation and multi-epoch outlier rejection can effectively improve the positioning accuracy. Besides, MR-ULINS maintains high accuracy and robustness in LiDAR-degenerated scenes and UWB-challenging conditions with spare base stations.

arxiv情報

著者 Tisheng Zhang,Man Yuan,Linfu Wei,Yan Wang,Hailiang Tang,Xiaoji Niu
発行日 2025-05-28 03:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | MR-ULINS: A Tightly-Coupled UWB-LiDAR-Inertial Estimator with Multi-Epoch Outlier Rejection はコメントを受け付けていません

Gait-Net-augmented Implicit Kino-dynamic MPC for Dynamic Variable-frequency Humanoid Locomotion over Discrete Terrains

要約

ヒューマノイド運動のための低秩序モデルベースの最適制御技術は、固定時間の離散化に依存しているため、動的な歩行歩行に同時に段階的な持続時間と配置を適応させるために苦労します。
この作業では、自然な可変周波数運動のためのステップの位置、ステップ持続時間、および接触力を同時に最適化するために、歩行ネットの暗黙のキノダイナミックモデル予測制御(MPC)を提案します。
提案された方法には、反復的な二次プログラムによって多次制に制約された変数を解決するために、歩行ネット維持連続凸MPCアルゴリズムが組み込まれています。
そのコアでは、軽量の歩行周波数ネットワーク(GAIT-NET)が、可変MPCサンプリング時間の観点から優先ステップ持続時間を決定し、ステップ持続時間の最適化をパラメーターレベルに簡素化します。
さらに、ローカルソリューションを組み込むことにより、各シーケンシャルイテレーション内の空間参照軌道を強化および更新し、参照軌跡の設計に運動学的制約の投影を可能にします。
提案されたアルゴリズムを高忠実度シミュレーションと小型のヒューマノイドハードウェアで検証し、地形データの1段階のプレビューのみで、可変頻度と3-Dの離散地形の移動の能力を実証します。

要約(オリジナル)

Reduced-order-model-based optimal control techniques for humanoid locomotion struggle to adapt step duration and placement simultaneously in dynamic walking gaits due to their reliance on fixed-time discretization, which limits responsiveness to various disturbances and results in suboptimal performance in challenging conditions. In this work, we propose a Gait-Net-augmented implicit kino-dynamic model-predictive control (MPC) to simultaneously optimize step location, step duration, and contact forces for natural variable-frequency locomotion. The proposed method incorporates a Gait-Net-augmented Sequential Convex MPC algorithm to solve multi-linearly constrained variables by iterative quadratic programs. At its core, a lightweight Gait-frequency Network (Gait-Net) determines the preferred step duration in terms of variable MPC sampling times, simplifying step duration optimization to the parameter level. Additionally, it enhances and updates the spatial reference trajectory within each sequential iteration by incorporating local solutions, allowing the projection of kinematic constraints to the design of reference trajectories. We validate the proposed algorithm in high-fidelity simulations and on small-size humanoid hardware, demonstrating its capability for variable-frequency and 3-D discrete terrain locomotion with only a one-step preview of terrain data.

arxiv情報

著者 Junheng Li,Ziwei Duan,Junchao Ma,Quan Nguyen
発行日 2025-05-28 03:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Gait-Net-augmented Implicit Kino-dynamic MPC for Dynamic Variable-frequency Humanoid Locomotion over Discrete Terrains はコメントを受け付けていません

Adapting Gait Frequency for Posture-regulating Humanoid Push-recovery via Hierarchical Model Predictive Control

要約

現在のヒューマノイドプッシュ回復戦略は、しばしば全身の動きを使用しますが、姿勢規制を見落とす傾向があります。
たとえば、操作タスクでは、上半身が直立して回復の変位を最小限に抑える必要がある場合があります。
このペーパーでは、回復ステッピング戦略を調整することにより、未知の妨害の下でヒューマノイドプッシュ回復のパフォーマンスを強化し、身体姿勢を調節するための新しいアプローチを紹介します。
予測ウィンドウの不安定性を分析および検出し、歩行頻度の適応から迅速に回復する階層MPCベースのスキームを提案します。
私たちのアプローチでは、高レベルの非線形MPC、姿勢を認識している歩行周波数適応プランナー、および低レベルの凸運動MPCを統合します。
プランナーは、潜在的な不安定性と姿勢の逸脱の前駆体について評価できる質量の中心(COM)状態軌跡を予測します。
シミュレーションでは、ベースラインアプローチと比較して、平均して最大回復可能なインパルスが131%増加したことを示しています。
ハードウェア実験では、提案されたアプローチでは、回復タイミング/反射の回復ステッピングの125ミリ秒の進歩が観察されています。
また、プッシュ回復のパフォーマンスの改善と、0.2 RAD未満の体の態度の変化を最小限に抑えることも示しています。

要約(オリジナル)

Current humanoid push-recovery strategies often use whole-body motion, yet they tend to overlook posture regulation. For instance, in manipulation tasks, the upper body may need to stay upright and have minimal recovery displacement. This paper introduces a novel approach to enhancing humanoid push-recovery performance under unknown disturbances and regulating body posture by tailoring the recovery stepping strategy. We propose a hierarchical-MPC-based scheme that analyzes and detects instability in the prediction window and quickly recovers through adapting gait frequency. Our approach integrates a high-level nonlinear MPC, a posture-aware gait frequency adaptation planner, and a low-level convex locomotion MPC. The planners predict the center of mass (CoM) state trajectories that can be assessed for precursors of potential instability and posture deviation. In simulation, we demonstrate improved maximum recoverable impulse by 131% on average compared with baseline approaches. In hardware experiments, a 125 ms advancement in recovery stepping timing/reflex has been observed with the proposed approach. We also demonstrate improved push-recovery performance and minimized body attitude change under 0.2 rad.

arxiv情報

著者 Junheng Li,Zhanhao Le,Junchao Ma,Quan Nguyen
発行日 2025-05-28 03:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Adapting Gait Frequency for Posture-regulating Humanoid Push-recovery via Hierarchical Model Predictive Control はコメントを受け付けていません

Enhanced SIRRT*: A Structure-Aware RRT* for 2D Path Planning with Hybrid Smoothing and Bidirectional Rewiring

要約

ランダムツリー*(RRT*)やその情報に基づいたバリアントIRRT*などのサンプリングベースのモーションプランナーは、複雑な環境での最適なパス計画に広く使用されています。
ただし、これらの方法は、特に初期ソリューションの発見が遅れている場合、ランダムサンプリングへの依存により、ゆっくりと収束が遅くなり、高い分散に悩まされることがよくあります。
このペーパーでは、拡張されたSirRT*(e-sirrt*)を紹介します。これは、ハイブリッドパスのスムージングと双方向の再配線という2つの重要な拡張機能を導入することにより、元のSIRRT*フレームワークを改善する構造認識プランナーです。
ハイブリッドパスのスムージングは​​、スプラインのフィッティングと衝突対応の修正を介した初期パスを改良しますが、双方向の再配線は、コストの伝播を改善するために、滑らかなパスの周りのツリー接続性を局所的に最適化します。
実験結果は、E-SIRRT*が100回の試行にわたる初期パスの品質、収束率、および堅牢性の観点から、一貫してIRRT*とSIRRT*を上回ることを示しています。
確率的初期化により高い変動性を示すIRRT*とは異なり、E-SIRRT*は、決定論的なスケルトンベースの初期化と構造改良を通じて、反復可能な効率的なパフォーマンスを実現します。

要約(オリジナル)

Sampling-based motion planners such as Rapidly-exploring Random Tree* (RRT*) and its informed variant IRRT* are widely used for optimal path planning in complex environments. However, these methods often suffer from slow convergence and high variance due to their reliance on random sampling, particularly when initial solution discovery is delayed. This paper presents Enhanced SIRRT* (E-SIRRT*), a structure-aware planner that improves upon the original SIRRT* framework by introducing two key enhancements: hybrid path smoothing and bidirectional rewiring. Hybrid path smoothing refines the initial path through spline fitting and collision-aware correction, while bidirectional rewiring locally optimizes tree connectivity around the smoothed path to improve cost propagation. Experimental results demonstrate that E-SIRRT* consistently outperforms IRRT* and SIRRT* in terms of initial path quality, convergence rate, and robustness across 100 trials. Unlike IRRT*, which exhibits high variability due to stochastic initialization, E-SIRRT* achieves repeatable and efficient performance through deterministic skeleton-based initialization and structural refinement.

arxiv情報

著者 Hyejeong Ryu
発行日 2025-05-28 04:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhanced SIRRT*: A Structure-Aware RRT* for 2D Path Planning with Hybrid Smoothing and Bidirectional Rewiring はコメントを受け付けていません

DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation

要約

なじみのない環境での適応ナビゲーションは、家庭用サービスロボットにとって重要ですが、低レベルのパス計画と高レベルのシーンの理解の両方が必要であるため、困難なままです。
最近のビジョン言語モデル(VLM)ベースのゼロショットアプローチは、以前のマップとシーン固有のトレーニングデータへの依存を減らしますが、それらは大きな制限に直面しています:離散観察からの時空の不連続性、非構造化されたメモリ表現、および航行障害につながるタスク理解が不十分です。
ヒトナビゲーション能力を模倣する腹側と背側の流れで構成される新しい認知インスパイアされたフレームワークである、ドラメモン(強化されたメモリ指向ナビゲーションを備えた分散型オントロジー対応の信頼できるエージェント)を提案します。
背面は、階層的なセマンティック空間融合とトポロジーマップを実装して、時空間的な不連続性を処理し、腹部ストリームはRAG-VLMとポリシーVLMを組み合わせて意思決定を改善します。
また、私たちのアプローチは、ナビゲーションの安全性と効率性を確保するために、NAV授業を開発しています。
HM3D、MP3D、およびGOATデータセットでDoraemonを評価します。このデータセットでは、成功率(SR)と成功の両方でパス長(SPL)メトリックで重み付けされ、既存の方法を大幅に上回ることができます。
また、ナビゲーションインテリジェンスをより良く評価するために、新しい評価メトリック(AORI)を紹介します。
包括的な実験では、以前のマップビルディングや事前トレーニングを必要とせずに、ゼロショット自律ナビゲーションにおけるドラリーモンの有効性が示されています。

要約(オリジナル)

Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON’s effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.

arxiv情報

著者 Tianjun Gu,Linfeng Li,Xuhong Wang,Chenghua Gong,Jingyu Gong,Zhizhong Zhang,Yuan Xie,Lizhuang Ma,Xin Tan
発行日 2025-05-28 04:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation はコメントを受け付けていません

Latent Weight Diffusion: Generating reactive policies instead of trajectories

要約

オープンソースのロボットデータの可用性が向上するにつれて、模倣学習は、ロボット操作と移動の両方の実行可能なアプローチとして浮上しています。
現在、大規模な一般化ポリシーは、拡散モデルを使用してコントロールまたは軌跡を予測するように訓練されています。拡散モデルは、マルチモーダルアクション分布を学習するという望ましい特性を持っています。
ただし、一般化可能性にはコスト、つまりモデルサイズが大きく、推論が遅くなります。
これは、高い制御周波数を必要とするロボットタスクの問題です。
さらに、軌道を生成するための一般的なモデルである拡散ポリシー(DP)のパフォーマンスとアクションホライズンの間には既知のトレードオフがあります。
これらの理由から、ロボット計算の制約を条件として、これらのモデルを高い推論周波数で実行することが一般的な慣行です。
これらの制限に対処するために、拡散を使用して軌道を生成するのではなく、ロボットタスクの閉ループポリシー(神経ポリシーの重み)を生成する方法である潜在重量拡散(LWD)を提案します。
軌跡空間を介したパラメーター空間を介した動作分布の学習は、2つの重要な利点を提供します。長いアクション垂直(拡散クエリの少ない)と、高性能を維持しながら摂動に対する堅牢性。
推測計算コストの低下。
この目的のために、アクションホライズンが長く、環境に確率的摂動が存在する場合、LWDはDPよりも高い成功率を持っていることを示します。
さらに、LWDはDPに匹敵するマルチタスクパフォ​​ーマンスを達成しながら、推論時間フロップのわずか1/45番目を必要とします

要約(オリジナル)

With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost, namely, larger model size and slower inference. This is especially an issue for robotic tasks that require high control frequency. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (DP), a popular model for generating trajectories: fewer diffusion queries accumulate greater trajectory tracking errors. For these reasons, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to generate closed-loop policies (weights for neural policies) for robotic tasks, rather than generating trajectories. Learning the behavior distribution through parameter space over trajectory space offers two key advantages: longer action horizons (fewer diffusion queries) & robustness to perturbations while retaining high performance; and a lower inference compute cost. To this end, we show that LWD has higher success rates than DP when the action horizon is longer and when stochastic perturbations exist in the environment. Furthermore, LWD achieves multitask performance comparable to DP while requiring just ~1/45th of the inference-time FLOPS

arxiv情報

著者 Shashank Hegde,Satyajeet Das,Gautam Salhotra,Gaurav S. Sukhatme
発行日 2025-05-28 05:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Latent Weight Diffusion: Generating reactive policies instead of trajectories はコメントを受け付けていません