Monitoring Electrostatic Adhesion Forces via Acoustic Pressure

要約

静電接着は、多様な基質と低エネルギー消費への適応性のために、モバイルロボット工学、触覚、およびロボットエンドエフェクターで広く使用されています。
Force Sensingは、EAシステムでのフィードバック制御、相互作用、監視に重要です。
ただし、EAフォースモニタリングは、しばしばかさばる高価なセンサーに依存しており、システム全体の複雑さと重量を増加させます。
このホワイトペーパーでは、接着パッドに接触せずにEA力を監視する音響圧力ベースの方法を提示します。
EAパッドが導電性オブジェクトを接着する双極平方波電圧によって駆動されると、EAシステムから周期的な音響パルスが発生します。
これらの音響圧力信号をキャプチャし、ピーク圧力値の影響を調査するためにマイクを使用しました。
結果は、音響圧のピーク値が、接着されたオブジェクトの質量と接触面積、ならびに駆動電圧の振幅と周波数とともに増加したことを示しています。
この手法を、さまざまなオブジェクトの質量推定に適用し、2つのEAシステムの同時監視を行いました。
次に、この手法をEAエンドエフェクターに統合して、輸送中に接着されたオブジェクト質量の変化を監視できるようにしました。
提案された手法は、タスクの取り扱いにおけるEAエンドエフェクターの低コスト、非接触、およびマルチオブジェクト監視ソリューションを提供します。

要約(オリジナル)

Electrostatic adhesion is widely used in mobile robotics, haptics, and robotic end effectors for its adaptability to diverse substrates and low energy consumption. Force sensing is important for feedback control, interaction, and monitoring in the EA system. However, EA force monitoring often relies on bulky and expensive sensors, increasing the complexity and weight of the entire system. This paper presents an acoustic-pressure-based method to monitor EA forces without contacting the adhesion pad. When the EA pad is driven by a bipolar square-wave voltage to adhere a conductive object, periodic acoustic pulses arise from the EA system. We employed a microphone to capture these acoustic pressure signals and investigate the influence of peak pressure values. Results show that the peak value of acoustic pressure increased with the mass and contact area of the adhered object, as well as with the amplitude and frequency of the driving voltage. We applied this technique to mass estimation of various objects and simultaneous monitoring of two EA systems. Then, we integrated this technique into an EA end effector that enables monitoring the change of adhered object mass during transport. The proposed technique offers a low-cost, non-contact, and multi-object monitoring solution for EA end effectors in handling tasks.

arxiv情報

著者 Huacen Wang,Jiarui Zou,Zeju Zheng,Hongqiang Wang
発行日 2025-05-22 12:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Monitoring Electrostatic Adhesion Forces via Acoustic Pressure はコメントを受け付けていません

What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study

要約

正確でアジャイルなフライト操作を実行することは、さまざまなアプリケーションの四角体にとって重要です。
従来の象限制御アプローチは、フラットな軌道に依存したり、時間のかかる最適化に依存しているため、柔軟性を制限しています。
最近、RLベースのポリシーは、観察結果をアクションに直接マッピングする能力により、有望な代替手段として浮上し、詳細なシステムの知識と作動の制約の必要性を減らすことができました。
ただし、RLベースのポリシーでは、現実世界に展開されたときに不安定性が発生することが多いSIMからリアルのギャップを埋めることには大きな課題が残っています。
このホワイトペーパーでは、現実世界の四角体でゼロショット展開が可能な堅牢なRLベースの制御ポリシーを学習するための重要な要因を調査します。
5つの重要な要因を特定し、SimpleFlightという名前のPPOベースのトレーニングフレームワークを開発し、これらの5つの手法を統合します。
CrazyFlie QuadrotorでのSimpleFlightの有効性を検証し、最先端のRLベースラインと比較して軌跡追跡エラーが50%以上削減されることを示しています。
SimpleFlightによって導出されたポリシーは、滑らかな多項式の軌跡と、小さな推力から重量の四つ上での不実行のジグザグ軌跡の両方に一貫して優れています。
対照的に、ベースライン方法は、高速または実行不可能な軌跡と格闘しています。
さらなる調査と再現性をサポートするために、SimpleFlightをGPUベースのシミュレーターOmnidronesに統合し、コードおよびモデルチェックポイントへのオープンソースアクセスを提供します。
SimpleFlightが、RLベースの四肢駆除制御を進めるための貴重な洞察を提供することを願っています。
詳細については、プロジェクトWebサイトhttps://sites.google.com/view/simpleflight/をご覧ください。

要約(オリジナル)

Executing precise and agile flight maneuvers is critical for quadrotors in various applications. Traditional quadrotor control approaches are limited by their reliance on flat trajectories or time-consuming optimization, which restricts their flexibility. Recently, RL-based policy has emerged as a promising alternative due to its ability to directly map observations to actions, reducing the need for detailed system knowledge and actuation constraints. However, a significant challenge remains in bridging the sim-to-real gap, where RL-based policies often experience instability when deployed in real world. In this paper, we investigate key factors for learning robust RL-based control policies that are capable of zero-shot deployment in real-world quadrotors. We identify five critical factors and we develop a PPO-based training framework named SimpleFlight, which integrates these five techniques. We validate the efficacy of SimpleFlight on Crazyflie quadrotor, demonstrating that it achieves more than a 50% reduction in trajectory tracking error compared to state-of-the-art RL baselines. The policy derived by SimpleFlight consistently excels across both smooth polynominal trajectories and challenging infeasible zigzag trajectories on small thrust-to-weight quadrotors. In contrast, baseline methods struggle with high-speed or infeasible trajectories. To support further research and reproducibility, we integrate SimpleFlight into a GPU-based simulator Omnidrones and provide open-source access to the code and model checkpoints. We hope SimpleFlight will offer valuable insights for advancing RL-based quadrotor control. For more details, visit our project website at https://sites.google.com/view/simpleflight/.

arxiv情報

著者 Jiayu Chen,Chao Yu,Yuqing Xie,Feng Gao,Yinuo Chen,Shu’ang Yu,Wenhao Tang,Shilong Ji,Mo Mu,Yi Wu,Huazhong Yang,Yu Wang
発行日 2025-05-22 13:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study はコメントを受け付けていません

Joint Magnetometer-IMU Calibration via Maximum A Posteriori Estimation

要約

このホワイトペーパーでは、キャリブレーションの精度と計算効率の向上に焦点を当てた、磁気計と慣性測定ユニットを共同で調整するための新しいアプローチを紹介します。
提案された方法は、キャリブレーションの問題を最大A事後推定問題として定式化し、センサーのキャリブレーションパラメーターと方向軌道の両方を未知のものとして処理します。
この定式化により、閉じた導関数を使用した効率的な最適化が可能になります。
この方法は、計算の複雑さと推定精度の観点から、2つの最先端のアプローチと比較されます。
シミュレーション結果は、提案された方法が競合効率を維持しながら、キャリブレーションパラメーターのルート平均平方根誤差を低くすることを示しています。
現実世界の実験によるさらなる検証は、アプローチの実際的な利点を確認します。ほとんどのデータセットで磁場支援慣性ナビゲーションシステムの位置ドリフトを2倍以上にわたって効果的に削減します。
さらに、提案された方法は、2分未満で30磁気計を調整しました。
貢献には、新しいキャリブレーション方法、既存の方法の分析、包括的な経験的評価が含まれます。
データセットとアルゴリズムは、再現可能な研究を促進するために公開されています。

要約(オリジナル)

This paper presents a new approach for jointly calibrating magnetometers and inertial measurement units, focusing on improving calibration accuracy and computational efficiency. The proposed method formulates the calibration problem as a maximum a posteriori estimation problem, treating both the calibration parameters and orientation trajectory of the sensors as unknowns. This formulation enables efficient optimization with closed-form derivatives. The method is compared against two state-of-the-art approaches in terms of computational complexity and estimation accuracy. Simulation results demonstrate that the proposed method achieves lower root mean square error in calibration parameters while maintaining competitive computational efficiency. Further validation through real-world experiments confirms the practical benefits of our approach: it effectively reduces position drift in a magnetic field-aided inertial navigation system by more than a factor of two on most datasets. Moreover, the proposed method calibrated 30 magnetometers in less than 2 minutes. The contributions include a new calibration method, an analysis of existing methods, and a comprehensive empirical evaluation. Datasets and algorithms are made publicly available to promote reproducible research.

arxiv情報

著者 Chuan Huang,Gustaf Hendeby,Isaac Skog
発行日 2025-05-22 13:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Joint Magnetometer-IMU Calibration via Maximum A Posteriori Estimation はコメントを受け付けていません

MEbots: Integrating a RISC-V Virtual Platform with a Robotic Simulator for Energy-aware Design

要約

仮想プラットフォーム(VPS)は、自律システムの電子機器の早期ソフトウェア検証、コストの削減、市場までの時間を有効にします。
多くのVPSは機能的および非機能的シミュレーション(タイミング、パワーなど)の両方をサポートしていますが、システムが動作する環境をシミュレートする能力がありません。
対照的に、ロボットシミュレーターには正確なタイミングと電源機能がありません。
この2つの欠点は、設計者が開発中のソリューションの機能を完全に評価できないため、設計フローの有効性を制限します。
このペーパーでは、RISC-Vベースのシステム(乱雑)のVPとRobotics Simulator(Webots)を統合することにより、このギャップを埋める、完全に完全にオープンソースのフレームワークを紹介します。
このフレームワークにより、周囲の環境でのエレクトロニクスの全体的なミッションレベルのエネルギー認識の共感が可能になり、設計構成と高度な電力管理ポリシーの調査が合理化されます。

要約(オリジナル)

Virtual Platforms (VPs) enable early software validation of autonomous systems’ electronics, reducing costs and time-to-market. While many VPs support both functional and non-functional simulation (e.g., timing, power), they lack the capability of simulating the environment in which the system operates. In contrast, robotics simulators lack accurate timing and power features. This twofold shortcoming limits the effectiveness of the design flow, as the designer can not fully evaluate the features of the solution under development. This paper presents a novel, fully open-source framework bridging this gap by integrating a robotics simulator (Webots) with a VP for RISC-V-based systems (MESSY). The framework enables a holistic, mission-level, energy-aware co-simulation of electronics in their surrounding environment, streamlining the exploration of design configurations and advanced power management policies.

arxiv情報

著者 Giovanni Pollo,Mohamed Amine Hamdi,Matteo Risso,Lorenzo Ruotolo,Pietro Furbatto,Matteo Isoldi,Yukai Chen,Alessio Burrello,Enrico Macii,Massimo Poncino,Daniele Jahier Pagliari,Sara Vinco
発行日 2025-05-22 13:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | MEbots: Integrating a RISC-V Virtual Platform with a Robotic Simulator for Energy-aware Design はコメントを受け付けていません

D-LIO: 6DoF Direct LiDAR-Inertial Odometry based on Simultaneous Truncated Distance Field Mapping

要約

このホワイトペーパーでは、CPU上の切り捨てられた距離フィールドの同時マッピングに基づいて、6DOF直接Lidar-inertial odometry(D-lio)の新しいアプローチを紹介します。
このような連続表現(ポイントの近く)により、RAW 3D LIDARデータをオンラインで作業することができ、LIDAR機能の選択と追跡の必要性を回避し、匂いのパイプラインを簡素化し、多くのシナリオに簡単に一般化できます。
この方法は、環境を表すための便利なツールとして、提案されている高速切り捨て距離フィールド(高速TDF)メソッドに基づいています。
このような表現により、i)入力データでLIDAR機能を選択/追跡する必要なく、LIDAR Point-Cloud登録を非線形最適化プロセスとして解決することができます。ii)同時に、環境の正確な切り捨て距離フィールドマップを生成し、iii)そのサイズの独立した時期にそのようなマップを更新します。
このアプローチは、オープンデータセット、空中、地面を使用してテストされます。
また、他の最先端の匂い測定アプローチに対してもベンチマークされており、環境のオンライン生成されたTDF表現の付加価値と同じまたはより良いレベルの精度を示します。
ソースコードは、https://anonymous.4open.science/r/d-lioで公開されています

要約(オリジナル)

This paper presents a new approach for 6DoF Direct LiDAR-Inertial Odometry (D-LIO) based on the simultaneous mapping of truncated distance fields on CPU. Such continuous representation (in the vicinity of the points) enables working with raw 3D LiDAR data online, avoiding the need of LiDAR feature selection and tracking, simplifying the odometry pipeline and easily generalizing to many scenarios. The method is based on the proposed Fast Truncated Distance Field (Fast-TDF) method as a convenient tool to represent the environment. Such representation enables i) solving the LiDAR point-cloud registration as a nonlinear optimization process without the need of selecting/tracking LiDAR features in the input data, ii) simultaneously producing an accurate truncated distance field map of the environment, and iii) updating such map at constant time independently of its size. The approach is tested using open datasets, aerial and ground. It is also benchmarked against other state-of-the-art odometry approaches, demonstrating the same or better level of accuracy with the added value of an online-generated TDF representation of the environment, that can be used for other robotics tasks as planning or collision avoidance. The source code is publicly available at https://anonymous.4open.science/r/D-LIO

arxiv情報

著者 Lucia Coto-Elena,J. E. Maese,L. Merino,F. Caballero
発行日 2025-05-22 14:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | D-LIO: 6DoF Direct LiDAR-Inertial Odometry based on Simultaneous Truncated Distance Field Mapping はコメントを受け付けていません

InSpire: Vision-Language-Action Models with Intrinsic Spatial Reasoning

要約

言語命令と視覚観測を生の低レベルのアクションにマッピングするために、視覚的命令と視覚的観測をマッピングするために、視覚言語アクションモデル(VLA)を活用するために、汎用ロボットシステムを達成するための大きな見込みがあります。
彼らの進歩にもかかわらず、既存のVLAは、タスクに関係のある視覚的特徴をアクションと微妙に相関させる傾向があり、トレーニングデータを超えて一般化能力を制限します。
この課題に取り組むために、VLAの空間推論能力を高めることにより、偽の相関の悪影響を軽減するシンプルで効果的なアプローチである、本質的な空間推論(Inspire)を提案します。
具体的には、Inspireは、「ロボットに対する[オブジェクト]はどの方向にあるのか」という質問を準備することにより、タスク関連要因へのVLAの注意をリダイレクトします。
言語の指示と、「右/左/左/下/フロント/バック/グラスト」との答えを調整し、グラウンド・トゥルースを使用してアクションを予測します。
特に、Inspireは既存の自己回帰VLAを強化するためのプラグインとして使用できます。これは、追加のトレーニングデータや他の大規模なモデルとのやり取りを必要としません。
シミュレーションと現実世界の環境の両方における広範な実験結果は、アプローチの有効性と柔軟性を示しています。
当社のコード、前提条件のモデル、およびデモは、https://koorye.github.io/proj/inspireで公開されています。

要約(オリジナル)

Leveraging pretrained Vision-Language Models (VLMs) to map language instruction and visual observations to raw low-level actions, Vision-Language-Action models (VLAs) hold great promise for achieving general-purpose robotic systems. Despite their advancements, existing VLAs tend to spuriously correlate task-irrelevant visual features with actions, limiting their generalization capacity beyond the training data. To tackle this challenge, we propose Intrinsic Spatial Reasoning (InSpire), a simple yet effective approach that mitigates the adverse effects of spurious correlations by boosting the spatial reasoning ability of VLAs. Specifically, InSpire redirects the VLA’s attention to task-relevant factors by prepending the question ‘In which direction is the [object] relative to the robot?’ to the language instruction and aligning the answer ‘right/left/up/down/front/back/grasped’ and predicted actions with the ground-truth. Notably, InSpire can be used as a plugin to enhance existing autoregressive VLAs, requiring no extra training data or interaction with other large models. Extensive experimental results in both simulation and real-world environments demonstrate the effectiveness and flexibility of our approach. Our code, pretrained models and demos are publicly available at: https://Koorye.github.io/proj/Inspire.

arxiv情報

著者 Ji Zhang,Shihan Wu,Xu Luo,Hao Wu,Lianli Gao,Heng Tao Shen,Jingkuan Song
発行日 2025-05-22 15:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | InSpire: Vision-Language-Action Models with Intrinsic Spatial Reasoning はコメントを受け付けていません

Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only

要約

オンライン強化学習(RL)を通じて、事前に訓練されたポリシーのパフォーマンスを改善することは、重要でありながら挑戦的なトピックです。
既存のオンラインRL微調整方法には、安定性とパフォーマンスのためにオフラインの前提条件のQ関数を使用した継続的なトレーニングが必要です。
ただし、これらのオフラインの事前に抑制されたQ機能は、一般に、ほとんどのオフラインRLメソッドの保守主義のためにオフラインデータセットを超えた状態アクションペアを過小評価しており、オフラインからオンライン設定への移行時のさらなる調査を妨げます。
さらに、この要件は、事前に訓練されたポリシーのみが利用可能であるが、事前に訓練されたQ関数が存在しないシナリオでの適用性を制限します。
これらの課題に対処するために、オフラインの事前訓練を受けたポリシーのみを使用して、効率的なオンラインRL微調整の方法を提案し、事前に訓練されたQ機能への依存を排除​​します。
有害な悲観論を避けるために、オンラインフェーズ中にQ機能をゼロから迅速に初期化するPORIR(ポリシーのみの強化学習微調整)を導入します。
私たちの方法は、事前にデータまたはポリシーを活用する高度なオフラインからオンラインのRLアルゴリズムとオンラインRLアプローチで競争力のあるパフォーマンスを達成するだけでなく、先駆者で直接微調整行動クローン(BC)ポリシーの新しいパスを開拓します。

要約(オリジナル)

Improving the performance of pre-trained policies through online reinforcement learning (RL) is a critical yet challenging topic. Existing online RL fine-tuning methods require continued training with offline pretrained Q-functions for stability and performance. However, these offline pretrained Q-functions commonly underestimate state-action pairs beyond the offline dataset due to the conservatism in most offline RL methods, which hinders further exploration when transitioning from the offline to the online setting. Additionally, this requirement limits their applicability in scenarios where only pre-trained policies are available but pre-trained Q-functions are absent, such as in imitation learning (IL) pre-training. To address these challenges, we propose a method for efficient online RL fine-tuning using solely the offline pre-trained policy, eliminating reliance on pre-trained Q-functions. We introduce PORL (Policy-Only Reinforcement Learning Fine-Tuning), which rapidly initializes the Q-function from scratch during the online phase to avoid detrimental pessimism. Our method not only achieves competitive performance with advanced offline-to-online RL algorithms and online RL approaches that leverage data or policies prior, but also pioneers a new path for directly fine-tuning behavior cloning (BC) policies.

arxiv情報

著者 Wei Xiao,Jiacheng Liu,Zifeng Zhuang,Runze Suo,Shangke Lyu,Donglin Wang
発行日 2025-05-22 16:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only はコメントを受け付けていません

FlashBack: Consistency Model-Accelerated Shared Autonomy

要約

共有自律性は、直接制御することが不可能ではないにしても困難なロボットに対する制御権限をユーザーに提供する有効化テクノロジーです。
しかし、標準的な方法では、実践の例での採用を制限する仮定、ユーザーの目標または最適化を希望する目的(つまり、報酬)機能、ユーザーのポリシーの知識、またはトレーニング中のユーザーへのクエリレベルのアクセスを想定しています。
共有された自律性への拡散ベースのアプローチは、そのような仮定を行うことはなく、代わりにユーザーが制御権限を維持できるようにしながら、望ましい行動のデモンストレーションへのアクセスのみを必要とします。
ただし、これらの利点は、高い計算の複雑さを犠牲にしてもたらされており、リアルタイムの共有自律性が不可能になりました。
この制限を克服するために、拡散の一貫性モデルベースの定式化を採用する共有自律型フレームワークである一貫性共有自律性(CSA)を提案します。
CSAの鍵は、通常の微分方程式(PF ODE)の蒸留確率流を使用して、単一のステップで高忠実度サンプルを生成することです。
これにより、共有された自律性に対する以前の拡散ベースのアプローチで可能なものよりも大きな推論速度が発生し、単一の関数評価のみで複雑なドメインでのリアルタイム支援が可能になります。
さらに、PF ODEの中間状態で欠陥のあるアクションに介入することにより、CSAはさまざまなレベルの支援を可能にします。
さまざまな挑戦的なシミュレートされた現実世界のロボット制御の問題でCSAを評価し、タスクのパフォーマンスと計算効率の両方の点で最先端の方法よりも大幅な改善を示しています。

要約(オリジナル)

Shared autonomy is an enabling technology that provides users with control authority over robots that would otherwise be difficult if not impossible to directly control. Yet, standard methods make assumptions that limit their adoption in practice-for example, prior knowledge of the user’s goals or the objective (i.e., reward) function that they wish to optimize, knowledge of the user’s policy, or query-level access to the user during training. Diffusion-based approaches to shared autonomy do not make such assumptions and instead only require access to demonstrations of desired behaviors, while allowing the user to maintain control authority. However, these advantages have come at the expense of high computational complexity, which has made real-time shared autonomy all but impossible. To overcome this limitation, we propose Consistency Shared Autonomy (CSA), a shared autonomy framework that employs a consistency model-based formulation of diffusion. Key to CSA is that it employs the distilled probability flow of ordinary differential equations (PF ODE) to generate high-fidelity samples in a single step. This results in inference speeds significantly than what is possible with previous diffusion-based approaches to shared autonomy, enabling real-time assistance in complex domains with only a single function evaluation. Further, by intervening on flawed actions at intermediate states of the PF ODE, CSA enables varying levels of assistance. We evaluate CSA on a variety of challenging simulated and real-world robot control problems, demonstrating significant improvements over state-of-the-art methods both in terms of task performance and computational efficiency.

arxiv情報

著者 Luzhe Sun,Jingtian Ji,Xiangshan Tan,Matthew R. Walter
発行日 2025-05-22 16:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FlashBack: Consistency Model-Accelerated Shared Autonomy はコメントを受け付けていません

UAV See, UGV Do: Aerial Imagery and Virtual Teach Enabling Zero-Shot Ground Vehicle Repeat

要約

このペーパーでは、Virtual Teach and Repeat(Virt&r):The Teach and Repeat(T&R)フレームワークの拡張を紹介します。
Virt&rは、ターゲット環境向けにキャプチャされた空中画像を活用して、神経放射輝度フィールド(NERF)モデルをトレーニングして、密なポイント雲と写真テクスチャメッシュを抽出できるようにします。
NERFメッシュは、環境の高忠実度シミュレーションを作成して、無人の地上車両(UGV)を操縦して、目的のパスを事実上定義します。
その後、ミッションは、パスに沿って関連付けられたNERF由来のポイントクラウドサブマップと既存のLIDAR Teach(LT&R)フレームワークを使用して、実際のターゲット環境で実行できます。
SIMからリアルの横方向のパス追跡エラーを取得し、LT&Rと比較できる物理マーキングを使用して、12 kmを超える自律駆動データでVirt&Rの再現性をベンチマークします。
Virt&rは、2つの異なる環境で19.5 cmおよび18.4 cmの測定された根平均誤差(RMSE)を達成しました。これらは、テストに使用されるロボットで1つのタイヤ幅(24 cm)未満であり、それぞれの最大誤差は39.4 cmおよび47.6 cmでした。
これは、nerf由来のティーチングマップのみを使用して行われ、virt&rはLT&Rと同様の閉ループパストラッキングパフォーマンスを持っているが、実際の環境でUGVへのパスを手動で教えることは人間に必要ではないことを示しています。

要約(オリジナル)

This paper presents Virtual Teach and Repeat (VirT&R): an extension of the Teach and Repeat (T&R) framework that enables GPS-denied, zero-shot autonomous ground vehicle navigation in untraversed environments. VirT&R leverages aerial imagery captured for a target environment to train a Neural Radiance Field (NeRF) model so that dense point clouds and photo-textured meshes can be extracted. The NeRF mesh is used to create a high-fidelity simulation of the environment for piloting an unmanned ground vehicle (UGV) to virtually define a desired path. The mission can then be executed in the actual target environment by using NeRF-derived point cloud submaps associated along the path and an existing LiDAR Teach and Repeat (LT&R) framework. We benchmark the repeatability of VirT&R on over 12 km of autonomous driving data using physical markings that allow a sim-to-real lateral path-tracking error to be obtained and compared with LT&R. VirT&R achieved measured root mean squared errors (RMSE) of 19.5 cm and 18.4 cm in two different environments, which are slightly less than one tire width (24 cm) on the robot used for testing, and respective maximum errors were 39.4 cm and 47.6 cm. This was done using only the NeRF-derived teach map, demonstrating that VirT&R has similar closed-loop path-tracking performance to LT&R but does not require a human to manually teach the path to the UGV in the actual environment.

arxiv情報

著者 Desiree Fisker,Alexander Krawciw,Sven Lilge,Melissa Greeff,Timothy D. Barfoot
発行日 2025-05-22 17:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UAV See, UGV Do: Aerial Imagery and Virtual Teach Enabling Zero-Shot Ground Vehicle Repeat はコメントを受け付けていません

GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation

要約

一般化可能なオープンボキャブラリータスク指向の握り(TOG)モデルであるGrasmolmoを紹介します。
Graspmolmoは、自然言語の指示と単一のRGB-Dフレームを条件付けした意味的に適切な安定した握りを予測します。
たとえば、「お茶を注ぐ」を考えると、Graspmolmoはその体ではなくティーポットハンドルを把握します。
小さなデータセット、単純な言語、整理されていないシーンによって制限されている以前のTOGメソッドとは異なり、GraspmolmoはPrismから学びます。これは、乱雑な環境と多様で現実的なタスクの説明を特徴とする379kサンプルの新しい大規模な合成データセットです。
このデータに関するMolmo Visual-Languageモデルを微調整して、Graspmolmoが新しいオープンボキャブラリーの指示とオブジェクトに一般化できるようにします。
挑戦的な現実世界の評価では、Graspmolmoは、次の最高の代替手段によって達成された35%と比較して、複雑なタスクで70%の予測の成功を収めて、最先端の結果を達成します。
Graspmolmoはまた、意味的に修正されたバイマニュアルグラスクゼロショットを予測する能力を成功裏に実証しています。
合成データセット、コード、モデル、およびベンチマークをリリースして、タスクセマンティックロボット操作の研究を加速します。これは、ビデオとともにhttps://abhaybd.github.io/graspmolmo/で入手できます。

要約(オリジナル)

We present GrasMolmo, a generalizable open-vocabulary task-oriented grasping (TOG) model. GraspMolmo predicts semantically appropriate, stable grasps conditioned on a natural language instruction and a single RGB-D frame. For instance, given ‘pour me some tea’, GraspMolmo selects a grasp on a teapot handle rather than its body. Unlike prior TOG methods, which are limited by small datasets, simplistic language, and uncluttered scenes, GraspMolmo learns from PRISM, a novel large-scale synthetic dataset of 379k samples featuring cluttered environments and diverse, realistic task descriptions. We fine-tune the Molmo visual-language model on this data, enabling GraspMolmo to generalize to novel open-vocabulary instructions and objects. In challenging real-world evaluations, GraspMolmo achieves state-of-the-art results, with a 70% prediction success on complex tasks, compared to the 35% achieved by the next best alternative. GraspMolmo also successfully demonstrates the ability to predict semantically correct bimanual grasps zero-shot. We release our synthetic dataset, code, model, and benchmarks to accelerate research in task-semantic robotic manipulation, which, along with videos, are available at https://abhaybd.github.io/GraspMolmo/.

arxiv情報

著者 Abhay Deshpande,Yuquan Deng,Arijit Ray,Jordi Salvador,Winson Han,Jiafei Duan,Kuo-Hao Zeng,Yuke Zhu,Ranjay Krishna,Rose Hendrix
発行日 2025-05-22 17:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation はコメントを受け付けていません