SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks

要約

ロボットがデータ効率の良い方法で新しいタスクを学習できるようにすることは、長年の課題です。
一般的な戦略には、以前の経験、特に関連するタスクで収集された遷移データを慎重に活用することが含まれます。
一般的な選択と場所の操作については多くの進歩が遂げられていますが、正確な制御が不可欠な接触豊富なアセンブリタスクを調査している研究ははるかに少ないです。
SRSA(スキル検索とスキル適応)を紹介します。これは、多様なアセンブリタスクのポリシーを含む既存のスキルライブラリを利用することにより、この問題に対処するために設計された新しいフレームワークです。
この課題は、図書館のどのスキルが新しいタスクの微調整に最も関連しているかを特定することにあります。
私たちの重要な仮説は、新しいタスクでより高いゼロショット成功率を示すスキルが、そのタスクで迅速かつ効果的な微調整に適しているということです。
この目的のために、新しいタスクでスキルライブラリのすべてのスキルの転送成功を予測し、この予測を使用してスキル検索プロセスを導くことを提案します。
オブジェクトジオメトリ、物理的ダイナミクス、およびエキスパートアクションの機能を共同でキャプチャして、タスクを表現するフレームワークを確立し、転送成功予測子を効率的に学習できるようにします。
広範な実験は、SRSAが主要なベースラインを大幅に上回ることを示しています。
目に見えないタスクでの検索スキルと微調整スキルの場合、SRSAは成功率の19%の相対的な改善を達成し、ランダムシード全体で2.6倍低い標準偏差を示し、ベースラインと比較して満足のいく成功率に達するために2.4倍少ない遷移サンプルが必要です。
さらに、シミュレーションでSRSAで訓練されたポリシーは、現実世界に展開されたときに90%の平均成功率を達成します。
プロジェクトWebページhttps://srsa2024.github.io/をご覧ください。

要約(オリジナル)

Enabling robots to learn novel tasks in a data-efficient manner is a long-standing challenge. Common strategies involve carefully leveraging prior experiences, especially transition data collected on related tasks. Although much progress has been made for general pick-and-place manipulation, far fewer studies have investigated contact-rich assembly tasks, where precise control is essential. We introduce SRSA (Skill Retrieval and Skill Adaptation), a novel framework designed to address this problem by utilizing a pre-existing skill library containing policies for diverse assembly tasks. The challenge lies in identifying which skill from the library is most relevant for fine-tuning on a new task. Our key hypothesis is that skills showing higher zero-shot success rates on a new task are better suited for rapid and effective fine-tuning on that task. To this end, we propose to predict the transfer success for all skills in the skill library on a novel task, and then use this prediction to guide the skill retrieval process. We establish a framework that jointly captures features of object geometry, physical dynamics, and expert actions to represent the tasks, allowing us to efficiently learn the transfer success predictor. Extensive experiments demonstrate that SRSA significantly outperforms the leading baseline. When retrieving and fine-tuning skills on unseen tasks, SRSA achieves a 19% relative improvement in success rate, exhibits 2.6x lower standard deviation across random seeds, and requires 2.4x fewer transition samples to reach a satisfactory success rate, compared to the baseline. Furthermore, policies trained with SRSA in simulation achieve a 90% mean success rate when deployed in the real world. Please visit our project webpage https://srsa2024.github.io/.

arxiv情報

著者 Yijie Guo,Bingjie Tang,Iretiayo Akinola,Dieter Fox,Abhishek Gupta,Yashraj Narang
発行日 2025-03-06 15:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks はコメントを受け付けていません

A Data-Driven Aggressive Autonomous Racing Framework Utilizing Local Trajectory Planning with Velocity Prediction

要約

自律運転の開発は、自律的なレースに関する研究を後押ししました。
ただし、既存のローカル軌道計画方法には、鋭い角を持つ競馬場で最適な速度プロファイルを備えた軌跡を計画するのが困難であり、自律レースの性能が低下します。
この問題に対処するために、モデル予測輪郭制御(VPMPCC)に基づいて速度予測を統合するローカル軌道計画方法を提案します。
VPMPCCの最適なパラメーターは、レース(OFR)に適応される提案された新規客観的関数に基づいて、ベイジアン最適化(BO)を通じて学習されます。
具体的には、VPMPCCは、RaceTrackを参照速度プロファイルとしてエンコードし、最適化問題に組み込むことにより、速度予測を実現します。
この方法は、特に著しい曲率のある角で、ローカル軌道の速度プロファイルを最適化します。
提案されているのは、車両の安全性を備えたバランスレースのパフォーマンスを発揮し、安全で効率的なBOトレーニングを確保します。
シミュレーションでは、OFRベースのBOのトレーニング反復の数は、最先端の方法と比較して42.86%減少します。
次に、最適なシミュレーショントレーニングパラメーターが、再訓練なしで実際のF1tenth車両に適用されます。
重要な鋭い角を特徴とするカスタムビルドの競馬場での長期レース中、VPMPCCの平均投影速度は、車両の取り扱い制限の93.18%に達します。
リリースコードは、https://github.com/zhouhengli/vpmpccで入手できます。

要約(オリジナル)

The development of autonomous driving has boosted the research on autonomous racing. However, existing local trajectory planning methods have difficulty planning trajectories with optimal velocity profiles at racetracks with sharp corners, thus weakening the performance of autonomous racing. To address this problem, we propose a local trajectory planning method that integrates Velocity Prediction based on Model Predictive Contouring Control (VPMPCC). The optimal parameters of VPMPCC are learned through Bayesian Optimization (BO) based on a proposed novel Objective Function adapted to Racing (OFR). Specifically, VPMPCC achieves velocity prediction by encoding the racetrack as a reference velocity profile and incorporating it into the optimization problem. This method optimizes the velocity profile of local trajectories, especially at corners with significant curvature. The proposed OFR balances racing performance with vehicle safety, ensuring safe and efficient BO training. In the simulation, the number of training iterations for OFR-based BO is reduced by 42.86% compared to the state-of-the-art method. The optimal simulation-trained parameters are then applied to a real-world F1TENTH vehicle without retraining. During prolonged racing on a custom-built racetrack featuring significant sharp corners, the mean projected velocity of VPMPCC reaches 93.18% of the vehicle’s handling limits. The released code is available at https://github.com/zhouhengli/VPMPCC.

arxiv情報

著者 Zhouheng Li,Bei Zhou,Cheng Hu,Lei Xie,Hongye Su
発行日 2025-03-06 15:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Data-Driven Aggressive Autonomous Racing Framework Utilizing Local Trajectory Planning with Velocity Prediction はコメントを受け付けていません

Learning Generalizable Language-Conditioned Cloth Manipulation from Long Demonstrations

要約

マルチステップの布操作は、高次元の状態空間と布のダイナミクスによるロボットにとって困難な問題です。
マルチステップ布操作スキルのエンドツーエンドの模倣学習の最近の重要な進歩にもかかわらず、これらの方法は目に見えないタスクに一般化することができません。
一般化可能なマルチステップ布の操作の課題に取り組む際の私たちの洞察は分解です。
私たちは、長いデモンストレーションから基本的なスキルを自律的に学習し、不可能なタスクに一般化するための基本的なスキルを学んだ基本的なスキルを自律的に学習する新しいパイプラインを提案します。
具体的には、私たちの方法は、最初に、既存の長いデモンストレーションベンチマークから、大規模な言語モデル(LLM)の常識的な知識を持つ基本的なスキルを発見し、学習します。
次に、高レベルのLLMベースのタスクプランナーを活用して、これらの基本的なスキルは、目に見えないタスクを完了するために構成できます。
実験結果は、私たちの方法が、見られたタスクと目に見えないタスクの両方でマルチステップ布操作スキルを学習する際のベースライン方法よりも優れていることを示しています。

要約(オリジナル)

Multi-step cloth manipulation is a challenging problem for robots due to the high-dimensional state spaces and the dynamics of cloth. Despite recent significant advances in end-to-end imitation learning for multi-step cloth manipulation skills, these methods fail to generalize to unseen tasks. Our insight in tackling the challenge of generalizable multi-step cloth manipulation is decomposition. We propose a novel pipeline that autonomously learns basic skills from long demonstrations and composes learned basic skills to generalize to unseen tasks. Specifically, our method first discovers and learns basic skills from the existing long demonstration benchmark with the commonsense knowledge of a large language model (LLM). Then, leveraging a high-level LLM-based task planner, these basic skills can be composed to complete unseen tasks. Experimental results demonstrate that our method outperforms baseline methods in learning multi-step cloth manipulation skills for both seen and unseen tasks.

arxiv情報

著者 Hanyi Zhao,Jinxuan Zhu,Zihao Yan,Yichen Li,Yuhong Deng,Xueqian Wang
発行日 2025-03-06 15:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Generalizable Language-Conditioned Cloth Manipulation from Long Demonstrations はコメントを受け付けていません

Occlusion-Aware Consistent Model Predictive Control for Robot Navigation in Occluded Obstacle-Dense Environments

要約

閉塞された障害物密度の高い環境でのロボットナビゲーションの安全性と動きの一貫性を確保することは、重大な課題です。
これに関連して、この研究では、閉塞を意識した一貫したモデル予測制御(CMPC)戦略を提示します。
閉塞された障害を説明するために、将来の潜在的な場所を表す調整可能なリスク領域が組み込まれています。
その後、安全性を確保するために、動的リスクの境界制約がオンラインで開発されます。
CMPCは、搾取と探査のバランスをとるために、複数の局所的に最適な軌道ブランチ(それぞれが異なるリスク領域に合わせて調整された)を構築します。
共有コンセンサストランクが生成され、有意な速度の変動なしに枝間でスムーズな遷移を確保し、運動の一貫性をさらに維持します。
高い計算効率を促進し、ローカル軌道全体の調整を確保するために、乗数の交互方向方法(ADMM)を使用して、CMPCを並列解決のために管理可能なサブプロフェンスに分解します。
提案された戦略は、Ackermannステアリングロボットプラットフォームでのシミュレーションと現実世界の実験を通じて検証されます。
結果は、閉塞された障害物密度の高い環境でのベースラインアプローチとの比較を通じて、提案されたCMPC戦略の有効性を示しています。

要約(オリジナル)

Ensuring safety and motion consistency for robot navigation in occluded, obstacle-dense environments is a critical challenge. In this context, this study presents an occlusion-aware Consistent Model Predictive Control (CMPC) strategy. To account for the occluded obstacles, it incorporates adjustable risk regions that represent their potential future locations. Subsequently, dynamic risk boundary constraints are developed online to ensure safety. The CMPC then constructs multiple locally optimal trajectory branches (each tailored to different risk regions) to balance between exploitation and exploration. A shared consensus trunk is generated to ensure smooth transitions between branches without significant velocity fluctuations, further preserving motion consistency. To facilitate high computational efficiency and ensure coordination across local trajectories, we use the alternating direction method of multipliers (ADMM) to decompose the CMPC into manageable sub-problems for parallel solving. The proposed strategy is validated through simulation and real-world experiments on an Ackermann-steering robot platform. The results demonstrate the effectiveness of the proposed CMPC strategy through comparisons with baseline approaches in occluded, obstacle-dense environments.

arxiv情報

著者 Minzhe Zheng,Lei Zheng,Lei Zhu,Jun Ma
発行日 2025-03-06 15:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Occlusion-Aware Consistent Model Predictive Control for Robot Navigation in Occluded Obstacle-Dense Environments はコメントを受け付けていません

DogLegs: Robust Proprioceptive State Estimation for Legged Robots Using Multiple Leg-Mounted IMUs

要約

本体の堅牢で正確な固有受容状態推定は、脚のあるロボットがLIDARやカメラなどの外部受容センサーが信頼できない場合がある極端な環境でタスクを実行するために重要です。
このホワイトペーパーでは、拡張カルマンフィルター(EKF)を使用して、ボディに取り付けられた慣性測定ユニット(ボディIMU)、ジョイントエンコーダ、および複数のレグマウントIMU(LEG-IMU)からの測定値を融合する脚のロボットの状態推定システムであるDoglegsを提案します。
フィルターシステムには、すべてのIMUフレームのエラー状態が含まれています。
脚のイマスは、足の接触を検出するために使用され、それにより、速度測定がゼロ速度測定を提供して、脚のイムフレームの状態を更新します。
さらに、脚の運動学によって体内と脚のイマスの間の相対位置の制約を計算し、それらを使用して本体状態を更新し、個々のIMUフレームのエラードリフトを減らします。
フィールドの実験結果は、提案されたシステムが、異なる地形での従来の脚の臭気測定法(ボディIMUとジョイントエンコーダのみを使用)と比較して、より良い状態推定精度を達成できることを示しています。
私たちは、研究コミュニティに利益をもたらすために、データセットを公開しています。

要約(オリジナル)

Robust and accurate proprioceptive state estimation of the main body is crucial for legged robots to execute tasks in extreme environments where exteroceptive sensors, such as LiDARs and cameras may become unreliable. In this paper, we propose DogLegs, a state estimation system for legged robots that fuses the measurements from a body-mounted inertial measurement unit (Body-IMU), joint encoders, and multiple leg-mounted IMUs (Leg-IMU) using an extended Kalman filter (EKF). The filter system contains the error states of all IMU frames. The Leg-IMUs are used to detect foot contact, thereby providing zero velocity measurements to update the state of the Leg-IMU frames. Additionally, we compute the relative position constraints between the Body-IMU and Leg-IMUs by the leg kinematics and use them to update the main body state and reduce the error drift of the individual IMU frames. Field experimental results have shown that our proposed system can achieve better state estimation accuracy compared to the traditional leg odometry method (using only Body-IMU and joint encoders) across different terrains. We make our datasets publicly available to benefit the research community.

arxiv情報

著者 Yibin Wu,Jian Kuang,Shahram Khorshidi,Xiaoji Niu,Lasse Klingbeil,Maren Bennewitz,Heiner Kuhlmann
発行日 2025-03-06 16:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DogLegs: Robust Proprioceptive State Estimation for Legged Robots Using Multiple Leg-Mounted IMUs はコメントを受け付けていません

Word2Wave: Language Driven Mission Programming for Efficient Subsea Deployments of Marine Robots

要約

このペーパーでは、自律水中車両(AUV)の動的ミッションプログラミングのための言語ベースのインターフェイスの設計と開発について説明します。
提案されている「Word2Wave」(W2W)フレームワークは、リモート海底ミッション用のAUVのインタラクティブなプログラミングとパラメーター構成を可能にします。
W2Wフレームワークには、次のものが含まれます。(i)効率的な言語間マッピングのための一連の新しい言語ルールとコマンド構造。
(ii)データ生成をトレーニングするためのGPTベースのプロンプトエンジニアリングモジュール。
(iii)人間の音声またはテキストからのミッションコマンド生成のための小さな言語モデル(SLM)ベースのシーケンスからシーケンス学習パイプライン。
(iv)2Dミッションマップの視覚化とヒューマンマシンのインターフェースのための新しいユーザーインターフェイス。
提案されている学習パイプラインは、処理された言語データから言語間マッピングを効果的に学習できるT5-Smallという名前のSLMを適応させ、堅牢で効率的なパフォーマンスを提供します。
最先端のベンチマーク評価に加えて、ユーザーインタラクション調査を実施して、商用AUVプログラミングインターフェイスよりもW2Wの有効性を実証します。
参加者全体で、W2Wベースのプログラミングには、従来のインターフェイスと比較して、ミッションプログラミングに10 \%未満の時間が必要でした。
これは、76.25のユーザビリティスコアを持つ海底ミッションプログラミングのよりシンプルで自然なパラダイムであると考えられています。
W2Wは、効率的な海底展開のためのハンズフリーAUVミッションプログラミングに関する有望な将来の研究の機会を開きます。

要約(オリジナル)

This paper explores the design and development of a language-based interface for dynamic mission programming of autonomous underwater vehicles (AUVs). The proposed `Word2Wave’ (W2W) framework enables interactive programming and parameter configuration of AUVs for remote subsea missions. The W2W framework includes: (i) a set of novel language rules and command structures for efficient language-to-mission mapping; (ii) a GPT-based prompt engineering module for training data generation; (iii) a small language model (SLM)-based sequence-to-sequence learning pipeline for mission command generation from human speech or text; and (iv) a novel user interface for 2D mission map visualization and human-machine interfacing. The proposed learning pipeline adapts an SLM named T5-Small that can learn language-to-mission mapping from processed language data effectively, providing robust and efficient performance. In addition to a benchmark evaluation with state-of-the-art, we conduct a user interaction study to demonstrate the effectiveness of W2W over commercial AUV programming interfaces. Across participants, W2W-based programming required less than 10\% time for mission programming compared to traditional interfaces; it is deemed to be a simpler and more natural paradigm for subsea mission programming with a usability score of 76.25. W2W opens up promising future research opportunities on hands-free AUV mission programming for efficient subsea deployments.

arxiv情報

著者 Ruo Chen,David Blow,Adnan Abdullah,Md Jahidul Islam
発行日 2025-03-06 16:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Word2Wave: Language Driven Mission Programming for Efficient Subsea Deployments of Marine Robots はコメントを受け付けていません

ExoNav II: Design of a Robotic Tool with Follow-the-Leader Motion Capability for Lateral and Ventral Spinal Cord Stimulation (SCS)

要約

脊髄刺激(SCS)電極は、伝統的に背部硬膜外腔に配置され、疼痛療法のために背柱繊維を刺激します。
最近、SCSは歩行の回復に注目を集めています。
ただし、移動をトリガーする運動繊維は、腹側および外側脊髄にあります。
現在、SCS電極は手動で操縦されているため、脊髄の外側および腹側の運動繊維に移動することが困難です。
この作業では、作動腱力にさらされたときにらせん状の形で曲がることができる、らせん状のマイクロマシン連続ロボットを提案します。
硬い外側のチューブを使用して、翻訳および回転の自由度を追加すると、このらせん状の連続体ロボットは、次のリーダー(FTL)モーションを実行できます。
ロボットのらせん形状の腱脳卒中と幾何学的パラメーターを、獲得した軌道とエンドエフェクターの位置に関連付ける運動学モデルを提案します。
提案された運動学モデルとロボットのFTLモーション機能を実験的に評価します。
腱ストローク値をロボットの形状にリンクするストロークベースの方法は、ロボットの長さ63.6 mmで19.84 mmの偏差と14.42 mmのRMSEで不正確さを示しました。
キネマティック方程式を使用してジョイントスペースをタスク空間にマッピングする位置ベースの方法は、10.54 mmの偏差と8.04 mmのRMSEでより良く機能しました。
フォローリーダーの実験では、脳卒中ベースの方法と位置ベースの方法では、それぞれ11.24 mmおよび7.32 mmの偏差が示され、RMSE値はそれぞれ8.67 mmおよび5.18 mmでした。
さらに、2つのFTLモーショントライアルでのエンドエフェクター軌道を比較して、ロボットの再現可能な動作を確認します。
最後に、3Dプリントされた脊髄ファントムモデルでロボットの操作を実証します。

要約(オリジナル)

Spinal cord stimulation (SCS) electrodes are traditionally placed in the dorsal epidural space to stimulate the dorsal column fibers for pain therapy. Recently, SCS has gained attention in restoring gait. However, the motor fibers triggering locomotion are located in the ventral and lateral spinal cord. Currently, SCS electrodes are steered manually, making it difficult to navigate them to the lateral and ventral motor fibers in the spinal cord. In this work, we propose a helically micro-machined continuum robot that can bend in a helical shape when subjected to actuation tendon forces. Using a stiff outer tube and adding translational and rotational degrees of freedom, this helical continuum robot can perform follow-the-leader (FTL) motion. We propose a kinematic model to relate tendon stroke and geometric parameters of the robot’s helical shape to its acquired trajectory and end-effector position. We evaluate the proposed kinematic model and the robot’s FTL motion capability experimentally. The stroke-based method, which links tendon stroke values to the robot’s shape, showed inaccuracies with a 19.84 mm deviation and an RMSE of 14.42 mm for 63.6 mm of robot’s length bending. The position-based method, using kinematic equations to map joint space to task space, performed better with a 10.54 mm deviation and an RMSE of 8.04 mm. Follow-the-leader experiments showed deviations of 11.24 mm and 7.32 mm, with RMSE values of 8.67 mm and 5.18 mm for the stroke-based and position-based methods, respectively. Furthermore, end-effector trajectories in two FTL motion trials are compared to confirm the robot’s repeatable behavior. Finally, we demonstrate the robot’s operation on a 3D-printed spinal cord phantom model.

arxiv情報

著者 Behnam Moradkhani,Pejman Kheradmand,Harshith Jella,Joseph Klein,Ajmal Zemmar,Yash Chitalia
発行日 2025-03-06 16:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ExoNav II: Design of a Robotic Tool with Follow-the-Leader Motion Capability for Lateral and Ventral Spinal Cord Stimulation (SCS) はコメントを受け付けていません

Whole-Body Model-Predictive Control of Legged Robots with MuJoCo

要約

四次元のロボットとヒューマノイドロボットの全身モデル予測制御(MPC)に対する非常に単純なアプローチの驚くべき現実世界の有効性を示します。
モデルベースの動作の合成の以前の成功と、シミュレーションにおけるMujocoを使用した移動および操作タスクの制御に基づいて、これらのポリシーは、SIMからリアルへの考慮事項がほとんどなく、現実世界に簡単に一般化できることを示しています。
私たちのベースライン法は、動的な四足動力、2本の足の四足歩行、フルサイズのヒューマノイド二足歩行運動など、さまざまなハードウェア実験でリアルタイムの全身MPCを実現します。
この生成しやすいハードウェアのベースラインが、実世界の全身MPC研究の侵入の障壁を低下させ、コミュニティの研究速度の加速に貢献することを願っています。
私たちのコードと実験のビデオは、https://johnzhang3.github.io/mujoco_ilqrでオンラインで入手できます。

要約(オリジナル)

We demonstrate the surprising real-world effectiveness of a very simple approach to whole-body model-predictive control (MPC) of quadruped and humanoid robots: the iterative LQR (iLQR) algorithm with MuJoCo dynamics and finite-difference approximated derivatives. Building upon the previous success of model-based behavior synthesis and control of locomotion and manipulation tasks with MuJoCo in simulation, we show that these policies can easily generalize to the real world with few sim-to-real considerations. Our baseline method achieves real-time whole-body MPC on a variety of hardware experiments, including dynamic quadruped locomotion, quadruped walking on two legs, and full-sized humanoid bipedal locomotion. We hope this easy-to-reproduce hardware baseline lowers the barrier to entry for real-world whole-body MPC research and contributes to accelerating research velocity in the community. Our code and experiment videos will be available online at:https://johnzhang3.github.io/mujoco_ilqr

arxiv情報

著者 John Z. Zhang,Taylor A. Howell,Zeji Yi,Chaoyi Pan,Guanya Shi,Guannan Qu,Tom Erez,Yuval Tassa,Zachary Manchester
発行日 2025-03-06 16:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Whole-Body Model-Predictive Control of Legged Robots with MuJoCo はコメントを受け付けていません

TacDiffusion: Force-domain Diffusion Policy for Precise Tactile Manipulation

要約

アセンブリは、現代の製造とサービスロボットの両方のロボットにとって重要なスキルです。
ただし、さまざまな高精度アセンブリタスクを処理できる移動可能な挿入スキルを習得することは、依然として重要な課題です。
このペーパーでは、拡散モデルを利用して高精度の触覚ロボット挿入タスク用の6Dレンチを生成する新しいフレームワークを紹介します。
単一のタスクで実行されたデモンストレーションから学習し、さまざまな新しい高精度タスクで95.7%のゼロショット転送成功率を達成します。
私たちの方法は、以前の作品によって実証された自己適応性を効果的に継承しています。
このフレームワークでは、動的システムベースのフィルターを使用して、拡散ポリシーとリアルタイム制御ループとの間の周波数の不整合に対処し、タスクの成功率を9.15%改善します。
さらに、拡散モデルの推論能力と速度間のトレードオフに関する実用的なガイドラインを提供します。

要約(オリジナル)

Assembly is a crucial skill for robots in both modern manufacturing and service robotics. However, mastering transferable insertion skills that can handle a variety of high-precision assembly tasks remains a significant challenge. This paper presents a novel framework that utilizes diffusion models to generate 6D wrench for high-precision tactile robotic insertion tasks. It learns from demonstrations performed on a single task and achieves a zero-shot transfer success rate of 95.7% across various novel high-precision tasks. Our method effectively inherits the self-adaptability demonstrated by our previous work. In this framework, we address the frequency misalignment between the diffusion policy and the real-time control loop with a dynamic system-based filter, significantly improving the task success rate by 9.15%. Furthermore, we provide a practical guideline regarding the trade-off between diffusion models’ inference ability and speed.

arxiv情報

著者 Yansong Wu,Zongxie Chen,Fan Wu,Lingyun Chen,Liding Zhang,Zhenshan Bing,Abdalla Swikir,Sami Haddadin,Alois Knoll
発行日 2025-03-06 17:28:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TacDiffusion: Force-domain Diffusion Policy for Precise Tactile Manipulation はコメントを受け付けていません

Learning Quadrotor Control From Visual Features Using Differentiable Simulation

要約

補強学習のサンプル非効率性(RL)は、ロボット工学における依然として大きな課題です。
RLは大規模なシミュレーションを必要とし、長いトレーニング時間を引き起こし、研究と革新を遅らせる可能性があります。
この問題は、信頼できる状態推定値にアクセスできないビジョンベースの制御タスクで特に顕著です。
微分可能なシミュレーションは、ダイナミクスモデルを介してグラデーションバックプロパゲーションを有効にし、低変異分析ポリシーの勾配を提供し、したがってサンプル効率を高めることにより、代替手段を提供します。
ただし、実際のロボットタスクの使用はまだ制限されています。
この作業は、象限制御を学習するための微分可能なシミュレーションの大きな可能性を示しています。
微分可能なシミュレーションでのトレーニングは、サンプルの効率とトレーニング時間の両方の点でモデルフリーのRLを大幅に上回ることを示しており、車両状態を提供する際に数秒で四角体を回復することを学ぶことができ、視覚的な機能のみに依存する際に数分で四角体を回復することができます。
私たちの成功の鍵は2つあります。
まず、グラデーション計算に単純な代理モデルを使用すると、制御性能を犠牲にすることなくトレーニングが大幅に加速します。
第二に、状態表現学習とポリシー学習を組み合わせることで、視覚的な機能のみが観察可能なタスクの収束速度が向上します。
これらの調査結果は、実際のロボット工学の微分可能なシミュレーションの可能性を強調し、従来のRLアプローチに魅力的な代替品を提供します。

要約(オリジナル)

The sample inefficiency of reinforcement learning (RL) remains a significant challenge in robotics. RL requires large-scale simulation and can still cause long training times, slowing research and innovation. This issue is particularly pronounced in vision-based control tasks where reliable state estimates are not accessible. Differentiable simulation offers an alternative by enabling gradient back-propagation through the dynamics model, providing low-variance analytical policy gradients and, hence, higher sample efficiency. However, its usage for real-world robotic tasks has yet been limited. This work demonstrates the great potential of differentiable simulation for learning quadrotor control. We show that training in differentiable simulation significantly outperforms model-free RL in terms of both sample efficiency and training time, allowing a policy to learn to recover a quadrotor in seconds when providing vehicle states and in minutes when relying solely on visual features. The key to our success is two-fold. First, the use of a simple surrogate model for gradient computation greatly accelerates training without sacrificing control performance. Second, combining state representation learning with policy learning enhances convergence speed in tasks where only visual features are observable. These findings highlight the potential of differentiable simulation for real-world robotics and offer a compelling alternative to conventional RL approaches.

arxiv情報

著者 Johannes Heeg,Yunlong Song,Davide Scaramuzza
発行日 2025-03-06 17:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Quadrotor Control From Visual Features Using Differentiable Simulation はコメントを受け付けていません