Fast Contact Detection via Fusion of Joint and Inertial Sensors for Parallel Robots in Human-Robot Collaboration

要約

安全な人間とロボットのコラボレーションには、迅速な接触検出が重要です。
固有受容情報に基づくオブザーバーは、接触検出に使用できますが、1次エラーダイナミクスがあり、その結果、遅延が生じます。
加速度計とジャイロスコープで構成される慣性測定単位(IMU)に基づくセンサー融合は、遅延を減らすのに有利です。
加速推定により、外力の直接計算が可能になります。
シリアルロボットの場合、関節座標は最小限の座標であるため、ダイナミクスモデリングには複数の加速度計とジャイロスコープの設置が必要です。
あるいは、Parallel Robots(PRS)は、PRの最小座標を既に提示しているエンドエフェクタープラットフォームで1つのIMUのみを使用する可能性を提供します。
この作業では、エンコーダを使用した接触検出のためのセンサー融合方法と、PRの低コストの消費者グレードIMUのみを導入します。
エンド効果の加速は、拡張されたカルマンフィルターによって推定され、ダイナミクスに組み込まれて外力を計算します。
平面PRを使用した実際の実験では、このアプローチがモメンタム観測者と比較して検出期間を最大50%削減し、3〜39ms以内の衝突とクランプの検出を可能にすることを実証します。

要約(オリジナル)

Fast contact detection is crucial for safe human-robot collaboration. Observers based on proprioceptive information can be used for contact detection but have first-order error dynamics, which results in delays. Sensor fusion based on inertial measurement units (IMUs) consisting of accelerometers and gyroscopes is advantageous for reducing delays. The acceleration estimation enables the direct calculation of external forces. For serial robots, the installation of multiple accelerometers and gyroscopes is required for dynamics modeling since the joint coordinates are the minimal coordinates. Alternatively, parallel robots (PRs) offer the potential to use only one IMU on the end-effector platform, which already presents the minimal coordinates of the PR. This work introduces a sensor-fusion method for contact detection using encoders and only one low-cost, consumer-grade IMU for a PR. The end-effector accelerations are estimated by an extended Kalman filter and incorporated into the dynamics to calculate external forces. In real-world experiments with a planar PR, we demonstrate that this approach reduces the detection duration by up to 50% compared to a momentum observer and enables the collision and clamping detection within 3-39ms.

arxiv情報

著者 Aran Mohammad,Jan Piosik,Dustin Lehmann,Thomas Seel,Moritz Schappler
発行日 2025-05-13 08:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fast Contact Detection via Fusion of Joint and Inertial Sensors for Parallel Robots in Human-Robot Collaboration はコメントを受け付けていません

ERPoT: Effective and Reliable Pose Tracking for Mobile Robots Using Lightweight Polygon Maps

要約

このペーパーでは、革新的な以前のポリゴンマップによって支えられた、大規模な屋外で挑戦的な屋内環境で動作するモバイルロボット向けに、ERPOTと呼ばれる効果的で信頼性の高いポーズ追跡ソリューションを紹介します。
特に、マップサイズが環境の拡大に伴い成長するにつれて発生する課題を克服するために、複数のポリゴンで構成される以前のマップの新しい形式が提案されています。
環境占有率を簡潔かつ正確に描写するためにポリゴンの使用の恩恵を受けて、以前のポリゴンマップは、長期的に信頼できるポーズ追跡を実現し、コンパクトな形を確保します。
さらに重要なことに、ポーズトラッキングは純粋なライダーモードで実行され、密な3Dポイントクラウドは、地面の除去と障害物の選択により、スパース2Dスキャンに変換されます。
これに基づいて、ポイントポリゴンマッチングによるポーズ推定のための新しいコスト関数が導入され、ポイントツーエッジとポイントツーエッジの2つの異なる制約フォームが含まれています。
この研究では、私たちの主な焦点は、軽量でコンパクトな以前のマップ構築と、効果的で信頼できるロボットのポーズ追跡という2つの重要な側面にあります。
どちらの側面も、さまざまな環境にさまざまなライダーセンサーを備えた多様なモバイルプラットフォームを介して、将来のナビゲーションの基礎柱として機能します。
公開されているデータセットと自己録画データセットに基づく比較実験が行われ、評価結果は、他の6つのアプローチで信頼性、以前のマップサイズ、ポーズ推定誤差、ランタイムに関するERPOTの優れたパフォーマンスを示しています。
対応するコードはhttps://github.com/ghm0819/erpotでアクセスでき、補足ビデオはhttps://youtu.be/cseml5frw1qにあります。

要約(オリジナル)

This paper presents an effective and reliable pose tracking solution, termed ERPoT, for mobile robots operating in large-scale outdoor and challenging indoor environments, underpinned by an innovative prior polygon map. Especially, to overcome the challenge that arises as the map size grows with the expansion of the environment, the novel form of a prior map composed of multiple polygons is proposed. Benefiting from the use of polygons to concisely and accurately depict environmental occupancy, the prior polygon map achieves long-term reliable pose tracking while ensuring a compact form. More importantly, pose tracking is carried out under pure LiDAR mode, and the dense 3D point cloud is transformed into a sparse 2D scan through ground removal and obstacle selection. On this basis, a novel cost function for pose estimation through point-polygon matching is introduced, encompassing two distinct constraint forms: point-to-vertex and point-to-edge. In this study, our primary focus lies on two crucial aspects: lightweight and compact prior map construction, as well as effective and reliable robot pose tracking. Both aspects serve as the foundational pillars for future navigation across diverse mobile platforms equipped with different LiDAR sensors in varied environments. Comparative experiments based on the publicly available datasets and our self-recorded datasets are conducted, and evaluation results show the superior performance of ERPoT on reliability, prior map size, pose estimation error, and runtime over the other six approaches. The corresponding code can be accessed at https://github.com/ghm0819/ERPoT, and the supplementary video is at https://youtu.be/cseml5FrW1Q.

arxiv情報

著者 Haiming Gao,Qibo Qiu,Hongyan Liu,Dingkun Liang,Chaoqun Wang,Xuebo Zhang
発行日 2025-05-13 08:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | ERPoT: Effective and Reliable Pose Tracking for Mobile Robots Using Lightweight Polygon Maps はコメントを受け付けていません

A spherical amplitude-phase formulation for 3-D adaptive line-of-sight (ALOS) guidance with USGES stability guarantees

要約

最近提案された3D適応視線(ALOS)のパスフォローするアルゴリズムは、風、波、海流などの環境障害の下で、海洋船、航空機、および非白黒車の結合モーションダイナミクスに対処しました。
安定性分析により、北東型(NED)運動微分方程式の体速度ベースの振幅相表現を使用して、交差および垂直トラックエラーの均一な半分指数安定性(ユーザー)が確立されました。
この短い論文では、ALOSフレームワークを再訪し、新しい球状振幅相表現を紹介します。
この定式化により、ガイダンスエラーのより幾何学的に直感的で物理的に観察可能な説明が得られ、大幅に単純化された安定性証明が可能になります。
ボディフレーム速度から派生した垂直カニ角に依存していた以前のモデルとは異なり、新しい表現は代替の垂直カニ角を使用し、USGESプロパティを保持します。
また、一定の高度/深さや水平カニ角度ゼロなどの制限的な仮定を削除し、非ゼロロール、ピッチ、および飛行パス角を使用した一般的な3D操作に有効なままです。

要約(オリジナル)

A recently proposed 3-D adaptive line-of-sight (ALOS) path-following algorithm addressed coupled motion dynamics of marine craft, aircraft, and uncrewed vehicles under environmental disturbances such as wind, waves, and ocean currents. Stability analysis established uniform semiglobal exponential stability (USGES) of the cross- and vertical-track errors using a body-velocity-based amplitude-phase representation of the North-East-Down (NED) kinematic differential equations. In this brief paper, we revisit the ALOS framework and introduce a novel spherical amplitude-phase representation. This formulation yields a more geometrically intuitive and physically observable description of the guidance errors and enables a significantly simplified stability proof. Unlike the previous model, which relied on a vertical crab angle derived from body-frame velocities, the new representation uses an alternative vertical crab angle and retains the USGES property. It also removes restrictive assumptions such as constant altitude/depth or zero horizontal crab angle, and remains valid for general 3-D maneuvers with nonzero roll, pitch, and flight-path angles.

arxiv情報

著者 Erlend M. Coates,Thor I. Fossen
発行日 2025-05-13 08:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | A spherical amplitude-phase formulation for 3-D adaptive line-of-sight (ALOS) guidance with USGES stability guarantees はコメントを受け付けていません

iA$^*$: Imperative Learning-based A$^*$ Search for Path Planning

要約

2つのポイント間の衝突のないパスを特定することを目的とするパスファインディングの問題は、ロボットナビゲーションや自律運転など、多くのアプリケーションで重要です。
$^*$検索などの古典的な方法は、小規模マップでうまく機能しますが、拡大するのは難しいことです。
逆に、データ駆動型のアプローチはパスフィンディング効率を改善することができますが、広範なデータラベル付けが必要であり、理論的な保証が欠けているため、実用的なアプリケーションに挑戦します。
2つの方法の強みを組み合わせるために、Imperative Learning(IL)戦略を利用し、命令学習に基づくA $^*$(ia $^*$)と呼ばれる新しい自己監視パスフィンディングフレームワークを提案します。
具体的には、ia $^*$は、下位レベルの最適化が、微分可能なa $^*$検索モジュールによる最適なパスを見つけることに専念するバイレベル最適化プロセスであり、上位レベルの最適化は、データ駆動型モデルから適切な初期値を設定することで効率を改善するために検索空間を狭めます。
また、上位レベルの最適化内のモデルは、完全に畳み込みのあるネットワークであり、低レベルの最適化の計算された損失によって訓練されています。
したがって、このフレームワークは広範なデータラベル付けを回避し、多様な環境で適用できます。
当社の包括的な実験は、IA $^*$がパスファインディング効率のクラシックおよびデータ駆動型の両方の方法を上回り、パブリックデータセットとシミュレーション環境で検証されたさまざまなタスクの間で優れた堅牢性を示すことを示しています。

要約(オリジナル)

The pathfinding problem, which aims to identify a collision-free path between two points, is crucial for many applications, such as robot navigation and autonomous driving. Classic methods, such as A$^*$ search, perform well on small-scale maps but face difficulties scaling up. Conversely, data-driven approaches can improve pathfinding efficiency but require extensive data labeling and lack theoretical guarantees, making it challenging for practical applications. To combine the strengths of the two methods, we utilize the imperative learning (IL) strategy and propose a novel self-supervised pathfinding framework, termed imperative learning-based A$^*$ (iA$^*$). Specifically, iA$^*$ is a bilevel optimization process where the lower-level optimization is dedicated to finding the optimal path by a differentiable A$^*$ search module, and the upper-level optimization narrows down the search space to improve efficiency via setting suitable initial values from a data-driven model. Besides, the model within the upper-level optimization is a fully convolutional network, trained by the calculated loss in the lower-level optimization. Thus, the framework avoids extensive data labeling and can be applied in diverse environments. Our comprehensive experiments demonstrate that iA$^*$ surpasses both classical and data-driven methods in pathfinding efficiency and shows superior robustness among different tasks, validated with public datasets and simulation environments.

arxiv情報

著者 Xiangyu Chen,Fan Yang,Chen Wang
発行日 2025-05-13 08:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | iA$^*$: Imperative Learning-based A$^*$ Search for Path Planning はコメントを受け付けていません

MA-ROESL: Motion-aware Rapid Reward Optimization for Efficient Robot Skill Learning from Single Videos

要約

Vision-Language Models(VLMS)は、優れた高レベルの計画機能を実証し、細心の人間レベルの報酬設計を必要とせずにビデオデモンストレーションから移動スキルを学習できるようにします。
ただし、不適切なフレームサンプリング方法と現在の方法の低いトレーニング効率は、重要なボトルネックのままであり、実質的な計算オーバーヘッドと時間コストをもたらします。
この制限に対処するために、シングルビデオ(MA-ROESL)からの効率的なロボットスキル学習のためのモーション認識の迅速な報酬最適化を提案します。
Ma-Roeslは、モーションアウェアフレーム選択方法を統合して、VLM生成された報酬機能の品質を暗黙的に向上させます。
さらに、迅速な報酬の最適化を介してトレーニング効率を向上させ、オンラインの微調整を通じて最終ポリシーを導き出すハイブリッド3フェーズトレーニングパイプラインを採用しています。
実験結果は、Ma-Roeslがトレーニング効率を大幅に向上させ、シミュレートされた設定と現実世界の両方の設定の両方で移動スキルを忠実に再現し、それにより、ビデオデモンストレーションから効率的なロボット運動スキルを学習するための堅牢でスケーラブルなフレームワークとしての可能性を強調することを示しています。

要約(オリジナル)

Vision-language models (VLMs) have demonstrated excellent high-level planning capabilities, enabling locomotion skill learning from video demonstrations without the need for meticulous human-level reward design. However, the improper frame sampling method and low training efficiency of current methods remain a critical bottleneck, resulting in substantial computational overhead and time costs. To address this limitation, we propose Motion-aware Rapid Reward Optimization for Efficient Robot Skill Learning from Single Videos (MA-ROESL). MA-ROESL integrates a motion-aware frame selection method to implicitly enhance the quality of VLM-generated reward functions. It further employs a hybrid three-phase training pipeline that improves training efficiency via rapid reward optimization and derives the final policy through online fine-tuning. Experimental results demonstrate that MA-ROESL significantly enhances training efficiency while faithfully reproducing locomotion skills in both simulated and real-world settings, thereby underscoring its potential as a robust and scalable framework for efficient robot locomotion skill learning from video demonstrations.

arxiv情報

著者 Xianghui Wang,Xinming Zhang,Yanjun Chen,Xiaoyu Shen,Wei Zhang
発行日 2025-05-13 09:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MA-ROESL: Motion-aware Rapid Reward Optimization for Efficient Robot Skill Learning from Single Videos はコメントを受け付けていません

Adaptive Diffusion Policy Optimization for Robotic Manipulation

要約

最近の研究では、複雑なポリシーをモデル化し、高度なマルチモダリティを表現し、高次元の連続制御タスクを効率的に処理することにより、補強学習(RL)の改善における拡散モデルの大きな可能性が示されています。
ただし、現在、拡散ベースのポリス(拡散ポリシーなど)を迅速かつ安定させる方法に関する研究は限られています。
この論文では、RLの適応勾配降下法を使用したロボット制御タスクの微調整拡散ベースのポリスのベストプラクティスを含む高速なアルゴリズムフレームワークであるAdamベースの拡散ポリシー最適化(ADPO)を提案します。
拡散ベースのポリシーは言うまでもなく、適応勾配法はRLのトレーニングであまり研究されていません。
ADPOは、標準的なロボットタスクに対する微調整の全体的な有効性の観点から、他の拡散ベースのRLメソッドを上回ることを確認します。
具体的には、ADPOをテストするために標準のロボット制御タスクに関する広範な実験を実施します。特に、6つの一般的な拡散ベースのRLメソッドがベンチマークメソッドとして提供されます。
実験結果は、ADPOがベースラインメソッドよりも優れたパフォーマンスまたは同等のパフォーマンスを取得することを示しています。
最後に、標準のロボットタスクにおける複数のハイパーパラメーターの感度を体系的に分析し、その後の実用的なアプリケーションのガイダンスを提供します。
私たちのビデオデモンストレーションは、https://github.com/timeless-lab/adpo.gitでリリースされます。

要約(オリジナル)

Recent studies have shown the great potential of diffusion models in improving reinforcement learning (RL) by modeling complex policies, expressing a high degree of multi-modality, and efficiently handling high-dimensional continuous control tasks. However, there is currently limited research on how to optimize diffusion-based polices (e.g., Diffusion Policy) fast and stably. In this paper, we propose an Adam-based Diffusion Policy Optimization (ADPO), a fast algorithmic framework containing best practices for fine-tuning diffusion-based polices in robotic control tasks using the adaptive gradient descent method in RL. Adaptive gradient method is less studied in training RL, let alone diffusion-based policies. We confirm that ADPO outperforms other diffusion-based RL methods in terms of overall effectiveness for fine-tuning on standard robotic tasks. Concretely, we conduct extensive experiments on standard robotic control tasks to test ADPO, where, particularly, six popular diffusion-based RL methods are provided as benchmark methods. Experimental results show that ADPO acquires better or comparable performance than the baseline methods. Finally, we systematically analyze the sensitivity of multiple hyperparameters in standard robotics tasks, providing guidance for subsequent practical applications. Our video demonstrations are released in https://github.com/Timeless-lab/ADPO.git.

arxiv情報

著者 Huiyun Jiang,Zhuang Yang
発行日 2025-05-13 09:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Adaptive Diffusion Policy Optimization for Robotic Manipulation はコメントを受け付けていません

Continuous World Coverage Path Planning for Fixed-Wing UAVs using Deep Reinforcement Learning

要約

無人航空機(UAV)カバレッジパス計画(CPP)は、精密農業や捜索救助などのアプリケーションにとって重要です。
従来の方法は個別のグリッドベースの表現に依存していますが、実際のUAV操作には電力効率の高い連続モーション計画が必要です。
継続的な環境でUAV CPPの問題を策定し、完全なカバレッジを確保しながら消費電力を最小限に抑えます。
私たちのアプローチは、可変サイズの軸に合わせた長方形と、曲率が制約したb \ ‘ezier曲線を備えたUAVモーションを備えた環境をモデル化します。
自己適応カリキュラムを採用したアクションマッピングベースのソフトアクタークリティック(AM-SAC)アルゴリズムを使用して、強化学習エージェントを訓練します。
手続き的に生成されたシナリオと手作りの両方のシナリオでの実験は、エネルギー効率の高いカバレッジ戦略を学習する方法の有効性を示しています。

要約(オリジナル)

Unmanned Aerial Vehicle (UAV) Coverage Path Planning (CPP) is critical for applications such as precision agriculture and search and rescue. While traditional methods rely on discrete grid-based representations, real-world UAV operations require power-efficient continuous motion planning. We formulate the UAV CPP problem in a continuous environment, minimizing power consumption while ensuring complete coverage. Our approach models the environment with variable-size axis-aligned rectangles and UAV motion with curvature-constrained B\’ezier curves. We train a reinforcement learning agent using an action-mapping-based Soft Actor-Critic (AM-SAC) algorithm employing a self-adaptive curriculum. Experiments on both procedurally generated and hand-crafted scenarios demonstrate the effectiveness of our method in learning energy-efficient coverage strategies.

arxiv情報

著者 Mirco Theile,Andres R. Zapata Rodriguez,Marco Caccamo,Alberto L. Sangiovanni-Vincentelli
発行日 2025-05-13 09:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Continuous World Coverage Path Planning for Fixed-Wing UAVs using Deep Reinforcement Learning はコメントを受け付けていません

MDF: Multi-Modal Data Fusion with CNN-Based Object Detection for Enhanced Indoor Localization Using LiDAR-SLAM

要約

屋内のローカリゼーションは、特にGPSが奪われた環境で、高精度を達成する上で永続的な課題に直面しています。
この研究では、2D LIDARとIMUセンサーを統合する最先端のハンドヘルド屋内ローカリゼーションシステムを発表し、強化された高速精度マッピング、計算効率、およびリアルタイムの適応性を提供します。
3D LIDARシステムとは異なり、迅速な処理、低コストのスケーラビリティ、堅牢なパフォーマンスで優れており、緊急対応、自律ナビゲーション、産業自動化の新しい基準を設定します。
CNN駆動型のオブジェクト検出フレームワークで強化され、ROSの地図製作者Slam(同時ローカリゼーションとマッピング)を通じて最適化されたこのシステムは、絶対軌道エラー(ATE)を21.03%削減し、SC-Aloamのような最先端のアプローチと比較して、1.884メンバーの平均Xポジションエラーと比較して並外れた精度を達成します。
CNNベースのオブジェクト検出の統合により、マッピングとローカリゼーションにおける堅牢性が保証され、散らかった環境や動的環境でも、既存の方法を26.09%上回ります。
これらの進歩は、挑戦的な屋内シナリオにおける高精度のローカリゼーションのための信頼できるスケーラブルなソリューションとしてシステムを確立します

要約(オリジナル)

Indoor localization faces persistent challenges in achieving high accuracy, particularly in GPS-deprived environments. This study unveils a cutting-edge handheld indoor localization system that integrates 2D LiDAR and IMU sensors, delivering enhanced high-velocity precision mapping, computational efficiency, and real-time adaptability. Unlike 3D LiDAR systems, it excels with rapid processing, low-cost scalability, and robust performance, setting new standards for emergency response, autonomous navigation, and industrial automation. Enhanced with a CNN-driven object detection framework and optimized through Cartographer SLAM (simultaneous localization and mapping ) in ROS, the system significantly reduces Absolute Trajectory Error (ATE) by 21.03%, achieving exceptional precision compared to state-of-the-art approaches like SC-ALOAM, with a mean x-position error of -0.884 meters (1.976 meters). The integration of CNN-based object detection ensures robustness in mapping and localization, even in cluttered or dynamic environments, outperforming existing methods by 26.09%. These advancements establish the system as a reliable, scalable solution for high-precision localization in challenging indoor scenarios

arxiv情報

著者 Saqi Hussain Kalan,Boon Giin Lee,Wan-Young Chung
発行日 2025-05-13 09:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MDF: Multi-Modal Data Fusion with CNN-Based Object Detection for Enhanced Indoor Localization Using LiDAR-SLAM はコメントを受け付けていません

Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression

要約

この論文では、自己網性モデルと視覚運動ポリシーを学習するための拡散モデルをシームレスに組み合わせる新しいフレームワークであるdiffusionVlaを紹介します。
私たちのアプローチの中心は、次のトークン予測目標であり、モデルが現在の観測のコンテキストでユーザーのクエリを効果的に推論できるようにします。
その後、拡散モデルが取り付けられ、堅牢なアクション出力が生成されます。
自己融合を通じてポリシー学習を強化するために、推論フレーズをポリシー学習プロセスに直接統合する新しい推論インジェクションモジュールを紹介します。
フレームワーク全体がシンプルで柔軟であるため、簡単に展開してアップグレードできます。
複数の実際のロボットを使用して広範な実験を実施して、拡散vlaの有効性を検証します。
私たちのテストには、困難な工場選別タスクが含まれます。このタスクでは、拡散vlaがトレーニング中に見られなかったものを含むオブジェクトを正常に分類します。
推論モジュールにより、モデルが解釈可能になることがわかります。
オブザーバーは、モデルの思考プロセスを理解し、ポリシーの障害の潜在的な原因を特定することができます。
さらに、ゼロショットビンピッキングタスクでDiffusionVlaをテストし、以前に見えない102のオブジェクトで63.7%の精度を達成しました。
私たちの方法は、ディストラクタや新しい背景などの視覚的な変化に対する堅牢性を示し、新しい実施形態に簡単に適応します。
さらに、DiffusionVlaは新しい指示に従い、会話能力を維持できます。
特に、diffusionVlaはデータ効率が高く、推論で高速です。
私たちの最小の拡散Vla-2Bは、単一のA6000 GPUで82Hzを実行し、複雑なタスクのために50未満のデモンストレーションでゼロからトレーニングできます。
最後に、モデルを2Bから72Bのパラメーターから72Bパラメーターにスケーリングし、モデルサイズの増加により改善された一般化機能を紹介します。

要約(オリジナル)

In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason effectively over the user’s query in the context of current observations. Subsequently, a diffusion model is attached to generate robust action outputs. To enhance policy learning through self-reasoning, we introduce a novel reasoning injection module that integrates reasoning phrases directly into the policy learning process. The whole framework is simple and flexible, making it easy to deploy and upgrade. We conduct extensive experiments using multiple real robots to validate the effectiveness of DiffusionVLA. Our tests include a challenging factory sorting task, where DiffusionVLA successfully categorizes objects, including those not seen during training. We observe that the reasoning module makes the model interpretable. It allows observers to understand the model thought process and identify potential causes of policy failures. Additionally, we test DiffusionVLA on a zero-shot bin-picking task, achieving 63.7\% accuracy on 102 previously unseen objects. Our method demonstrates robustness to visual changes, such as distractors and new backgrounds, and easily adapts to new embodiments. Furthermore, DiffusionVLA can follow novel instructions and retain conversational ability. Notably, DiffusionVLA is data-efficient and fast at inference; our smallest DiffusionVLA-2B runs 82Hz on a single A6000 GPU and can train from scratch on less than 50 demonstrations for a complex task. Finally, we scale the model from 2B to 72B parameters, showcasing improved generalization capabilities with increased model size.

arxiv情報

著者 Junjie Wen,Minjie Zhu,Yichen Zhu,Zhibin Tang,Jinming Li,Zhongyi Zhou,Chengmeng Li,Xiaoyu Liu,Yaxin Peng,Chaomin Shen,Feifei Feng
発行日 2025-05-13 09:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression はコメントを受け付けていません

ORACLE-Grasp: Zero-Shot Task-Oriented Robotic Grasping using Large Multimodal Models

要約

構造化されていない環境で未知のオブジェクトを把握することは、ロボット工学における根本的な課題のままであり、セマンティック理解と空間的推論の両方を必要とします。
既存の方法は、多くの場合、密なトレーニングデータセットまたは明示的な幾何学モデリングに依存しており、そのスケーラビリティを実際のタスクに制限します。
大規模なマルチモーダルモデル(LMMS)の最近の進歩は、ビジョンと言語の理解を統合するための新しい可能性を提供しますが、自律的なロボットグラッシングへの適用はほとんど未踏のままです。
LMMをセマンティックオラクルとして活用するゼロショットフレームワークであるOracle-Graspを提示して、追加のトレーニングや人間の入力を必要とせずに把握選択を導きます。
このシステムは、最初に高レベルのオブジェクトコンテキストを抽出し、タスク関連の把握領域を選択するためにデュアルプロムプトツール呼び出しを使用して、構造化された反復決定プロセスとして把握予測を定式化します。
イメージ空間を離散化し、候補エリアを推論することにより、Oracle-GraspはLMMで一般的な空間的不正確さを軽減し、人間のようなタスク駆動型の把握提案を生成します。
早期停止と深さベースの改良ステップにより、効率と身体的把握の信頼性がさらに向上します。
実験は、予測されたグラスが人間が発表した地上真理と比較して低い位置および方向誤差を達成し、現実世界のピックアップタスクで高い成功率につながることを示しています。
これらの結果は、言語主導の推論と軽量のビジョン技術を組み合わせて、タスク固有のデータセットや再訓練なしで堅牢で自律的な把握を可能にする可能性を強調しています。

要約(オリジナル)

Grasping unknown objects in unstructured environments remains a fundamental challenge in robotics, requiring both semantic understanding and spatial reasoning. Existing methods often rely on dense training datasets or explicit geometric modeling, limiting their scalability to real-world tasks. Recent advances in Large Multimodal Models (LMMs) offer new possibilities for integrating vision and language understanding, but their application to autonomous robotic grasping remains largely unexplored. We present ORACLE-Grasp, a zero-shot framework that leverages LMMs as semantic oracles to guide grasp selection without requiring additional training or human input. The system formulates grasp prediction as a structured, iterative decision process, using dual-prompt tool calling to first extract high-level object context and then select task-relevant grasp regions. By discretizing the image space and reasoning over candidate areas, ORACLE-Grasp mitigates the spatial imprecision common in LMMs and produces human-like, task-driven grasp suggestions. Early stopping and depth-based refinement steps further enhance efficiency and physical grasp reliability. Experiments demonstrate that the predicted grasps achieve low positional and orientation errors relative to human-annotated ground truth and lead to high success rates in real-world pick up tasks. These results highlight the potential of combining language-driven reasoning with lightweight vision techniques to enable robust, autonomous grasping without task-specific datasets or retraining.

arxiv情報

著者 Avihai Giuili,Rotem Atari,Avishai Sintov
発行日 2025-05-13 10:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ORACLE-Grasp: Zero-Shot Task-Oriented Robotic Grasping using Large Multimodal Models はコメントを受け付けていません