Robust Safety Critical Control Under Multiple State and Input Constraints: Volume Control Barrier Function Method

要約

この論文では、複数の制御バリア関数(CBF)の制約と入力制約の下での不確実なシステムの安全性が批判的な制御問題を調査します。
安全性リスクが発生したときに参照入力の変更を最小限に抑えて、安全性とパフォーマンスのバランスを確保する安全フィルターを生成するために、新しいフレームワークが提案されています。
エラーの符号(Rise)の堅牢な積分に基づく非線形妨害オブザーバー(DOB)は、システムの不確実性を推定するために使用され、推定誤差が指数関数的にゼロに収束することを保証します。
このエラーバウンドは、安全性の高いコントローラーに統合され、安全性を確保しながら保守性を低下させます。
複数のCBFと入力制約から生じる課題にさらに対処するために、2次プログラミング(QP)問題の実行可能なスペースを分析することにより、新しいボリュームCBF(VCBF)が提案されています。
%ボリュームを正の値として保持することにより、ソリューションの実現可能性を確保します。
実行可能なスペースが妨害下で消滅しないようにするために、DOB-VCBFベースの方法が導入され、結果のQPの実現可能性を維持しながらシステムの安全性が保証されます。
その後、提案されたコントローラーの有効性を検証するために、シミュレーションと実験結果のいくつかのグループが提供されます。

要約(オリジナル)

In this paper, the safety-critical control problem for uncertain systems under multiple control barrier function (CBF) constraints and input constraints is investigated. A novel framework is proposed to generate a safety filter that minimizes changes to reference inputs when safety risks arise, ensuring a balance between safety and performance. A nonlinear disturbance observer (DOB) based on the robust integral of the sign of the error (RISE) is used to estimate system uncertainties, ensuring that the estimation error converges to zero exponentially. This error bound is integrated into the safety-critical controller to reduce conservativeness while ensuring safety. To further address the challenges arising from multiple CBF and input constraints, a novel Volume CBF (VCBF) is proposed by analyzing the feasible space of the quadratic programming (QP) problem. % ensuring solution feasibility by keeping the volume as a positive value. To ensure that the feasible space does not vanish under disturbances, a DOB-VCBF-based method is introduced, ensuring system safety while maintaining the feasibility of the resulting QP. Subsequently, several groups of simulation and experimental results are provided to validate the effectiveness of the proposed controller.

arxiv情報

著者 Jinyang Dong,Shizhen Wu,Rui Liu,Xiao Liang,Biao Lu,Yongchun Fang
発行日 2025-03-20 02:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Safety Critical Control Under Multiple State and Input Constraints: Volume Control Barrier Function Method はコメントを受け付けていません

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

要約

大規模なコーパスで事前に訓練された大規模な言語モデルの最近の開発は、微調整を最小限に抑えて、さまざまな自然言語処理タスクで大幅に成功しています。
この成功は、アクション標識データの高コストによって長い間制約されてきたロボット工学に新たな約束を提供します。
尋ねます:豊かな「コーパス」として利用可能な相互作用関連の知識を含む豊富なビデオデータを考えると、ロボット学習を強化するために同様の生成前のトレーニングアプローチを効果的に適用できますか?
重要な課題は、ロボットの操作タスクに役立つ自己回帰の事前トレーニングの効果的な表現を特定することです。
動的な環境を観察することで人間が新しいスキルを学ぶ方法に触発されて、効果的なロボット学習は、低レベルのアクションに密接に結びついており、実際のロボットアクションへの学習運動の移転を促進するモーション関連の知識を強調する必要があることを提案します。
この目的のために、ビデオコンテンツを潜在的な動きのトークナーによって潜在的な動きのトークンシーケンスに変換するMotoを紹介し、監視されていない方法でビデオから動画の「言語」を埋めることを学びます。
モーショントークンの自己網目上を介してモトを前に移動し、多様な視覚的な動きの知識をキャプチャできるようにします。
トレーニング前の後、Moto-GPTは、意味的に解釈可能なモーショントークンを生成し、もっともらしいモーション軌跡を予測し、出力の尤度を通じて軌跡の合理性を評価する有望な能力を実証します。
学習されたモーションプライアーを実際のロボットアクションに転送するために、潜在的なモーショントークン予測と実際のロボット制御をシームレスに橋渡しする共同調整戦略を実装します。
広範な実験では、微調整されたMoto-GPTがロボット操作ベンチマークで優れた堅牢性と効率性を示し、ビデオデータから下流の視覚操作タスクに知識を転送する際の有効性を強調しています。

要約(オリジナル)

Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich ‘corpus’, can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging ‘language’ of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

arxiv情報

著者 Yi Chen,Yuying Ge,Weiliang Tang,Yizhuo Li,Yixiao Ge,Mingyu Ding,Ying Shan,Xihui Liu
発行日 2025-03-20 02:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos はコメントを受け付けていません

Control Pneumatic Soft Bending Actuator with Online Learning Pneumatic Physical Reservoir Computing

要約

ソフトロボットの固有の非線形性は、重要な制御を示しますが、同時に豊富な計算可能性を提供します。
貯水池コンピューティング(RC)は、ソフトアクチュエータなどの非線形システムを制御するためのオンライン学習システムの有効性を示しています。
従来のRCは、計算のためにソフトアクチュエーターの非線形ダイナミクスを活用することにより、物理リザーバーコンピューティング(PRC)に拡張できます。
このペーパーでは、PRCモデルとして別の空気圧ソフトアクチュエータを利用して、空気圧ソフトベンディングアクチュエーターの動きを制御するためのPRCベースのオンライン学習フレームワークを紹介します。
2つのRCモデルを必要とする従来の設計とは異なり、提案された制御システムは、単一のRCモデルを備えたよりコンパクトなアーキテクチャを採用しています。
さらに、このフレームワークは、ゼロショットオンライン学習を可能にし、オフライントレーニングに依存する以前のPRCベースの制御システムの制限に対処します。
シミュレーションと実験により、提案されたシステムのパフォーマンスが検証されました。
実験結果は、PRCモデルが線形モデルと比較して優れた制御性能を達成し、曲げモーション制御タスクで平均37%を超える根平均誤差(RMSE)を減らすことを示しています。
提案されているPRCベースのオンライン学習制御フレームワークは、ソフトアクチュエータの制御を強化するために、物理システムの固有の非線形性を活用するための新しいアプローチを提供します。

要約(オリジナル)

The intrinsic nonlinearities of soft robots present significant control but simultaneously provide them with rich computational potential. Reservoir computing (RC) has shown effectiveness in online learning systems for controlling nonlinear systems such as soft actuators. Conventional RC can be extended into physical reservoir computing (PRC) by leveraging the nonlinear dynamics of soft actuators for computation. This paper introduces a PRC-based online learning framework to control the motion of a pneumatic soft bending actuator, utilizing another pneumatic soft actuator as the PRC model. Unlike conventional designs requiring two RC models, the proposed control system employs a more compact architecture with a single RC model. Additionally, the framework enables zero-shot online learning, addressing limitations of previous PRC-based control systems reliant on offline training. Simulations and experiments validated the performance of the proposed system. Experimental results indicate that the PRC model achieved superior control performance compared to a linear model, reducing the root-mean-square error (RMSE) by an average of over 37% in bending motion control tasks. The proposed PRC-based online learning control framework provides a novel approach for harnessing physical systems’ inherent nonlinearities to enhance the control of soft actuators.

arxiv情報

著者 Junyi Shen,Tetsuro Miyazaki,Kenji Kawashima
発行日 2025-03-20 03:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Control Pneumatic Soft Bending Actuator with Online Learning Pneumatic Physical Reservoir Computing はコメントを受け付けていません

APEX-MR: Multi-Robot Asynchronous Planning and Execution for Cooperative Assembly

要約

シングルロボットワークステーションと比較して、マルチロボットシステムはいくつかの利点を提供します。1)システムのワークスペースを拡張し、2)タスクの効率を改善し、さらに重要なことに、3)ロボットが協同組合などの大幅な複雑で器用なタスクを実現できるようにします。
ただし、複数のロボットのタスクと動きを調整することは、問題のために困難です。
システムの不確実性、タスク効率、アルゴリズムのスケーラビリティ、および安全性の懸念。
これらの課題に対処するために、このペーパーはマルチロボット調整を研究し、Apex-MRを提案します。これは、複数のロボットを安全かつ効率的に調整して協同組合を達成するように設計された非同期計画と実行フレームワークです。
レゴアセンブリ。
特に、APEX-MRは、不確実性の下で堅牢な非同期実行を可能にするために、ポストプロセスのマルチロボットタスクとモーションプランへの体系的なアプローチを提供します。
実験結果は、APEX-MRが、シーケンシャルプランニングと比較して、多くの長老レゴアセンブリタスクの実行時間を48%、平均して同期計画と比較して36%を大幅に高速化できることを示しています。
パフォーマンスをさらに実証するために、Apex-MRをデュアルアームシステムに展開して、物理的なLEGOアセンブリを実行します。
私たちの知る限り、これは商用レゴブリックを使用してカスタマイズされたレゴアセンブリを実行できる最初のロボットシステムです。
実験結果は、APEX-MRを備えたデュアルアームシステムが、ロボットの動きを安全に調整し、効率的に協力し、複雑なLEGO構造を構築できることを示しています。
当社のプロジェクトWebサイトは、https://intelligent-control-lab.github.io/apex-mr/で入手できます。

要約(オリジナル)

Compared to a single-robot workstation, a multi-robot system offers several advantages: 1) it expands the system’s workspace, 2) improves task efficiency, and more importantly, 3) enables robots to achieve significantly more complex and dexterous tasks, such as cooperative assembly. However, coordinating the tasks and motions of multiple robots is challenging due to issues, e.g. system uncertainty, task efficiency, algorithm scalability, and safety concerns. To address these challenges, this paper studies multi-robot coordination and proposes APEX-MR, an asynchronous planning and execution framework designed to safely and efficiently coordinate multiple robots to achieve cooperative assembly, e.g. LEGO assembly. In particular, APEX-MR provides a systematic approach to post-process multi-robot tasks and motion plans to enable robust asynchronous execution under uncertainty. Experimental results demonstrate that APEX-MR can significantly speed up the execution time of many long-horizon LEGO assembly tasks by 48% compared to sequential planning and 36% compared to synchronous planning on average. To further demonstrate the performance, we deploy APEX-MR to a dual-arm system to perform physical LEGO assembly. To our knowledge, this is the first robotic system capable of performing customized LEGO assembly using commercial LEGO bricks. The experiment results demonstrate that the dual-arm system, with APEX-MR, can safely coordinate robot motions, efficiently collaborate, and construct complex LEGO structures. Our project website is available at https://intelligent-control-lab.github.io/APEX-MR/

arxiv情報

著者 Philip Huang,Ruixuan Liu,Changliu Liu,Jiaoyang Li
発行日 2025-03-20 04:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | APEX-MR: Multi-Robot Asynchronous Planning and Execution for Cooperative Assembly はコメントを受け付けていません

CONTHER: Human-Like Contextual Robot Learning via Hindsight Experience Replay and Transformers without Expert Demonstrations

要約

この論文では、目標指向の操作タスクと障害物の回避のためにロボットエージェントを効率的かつ迅速に訓練するように設計された新しい強化学習アルゴリズムであるContherを紹介します。
このアルゴリズムは、後知恵のエクスペリエンス(彼女)のリプレイ(彼女)のアプローチにインスパイアされた修正されたリプレイバッファーを使用して、エクスペリエンスを成功させ、まばらな報酬シナリオの問題に効果的に対処し、専門家のデモンストレーションを手動で収集する必要性を排除します。
開発されたアルゴリズムは、以前の状態のコンテキストを組み込むためのトランスベースのアーキテクチャを提案し、エージェントがより深い分析を実行し、人間の学習に似た方法で決定を下すことができます。
「内部デモンストレーター」として機能するビルトインリプレイバッファーの有効性は2つあります。学習を加速し、アルゴリズムがさまざまなタスクに適応できるようにします。
経験的データは、他の考慮された方法よりも平均38.46%、最も成功したベースラインは28.21%でアルゴリズムの優位性を確認し、ポイントリーチングタスクの成功率が高く、収束が速くなります。
コントロールはロボットのジョイントを介して実行されるため、アルゴリズムは実際のロボットシステムへの潜在的な適応と障害物回避タスクの構築を促進します。
したがって、このアルゴリズムは、複雑な動的軌跡と障害物回避に従う必要があるタスクでもテストされています。
アルゴリズムの設計により、幅広い目標指向のタスクへの適用性が保証され、実際のロボット工学アプリケーション向けの簡単に統合されたソリューションになります。

要約(オリジナル)

This paper presents CONTHER, a novel reinforcement learning algorithm designed to efficiently and rapidly train robotic agents for goal-oriented manipulation tasks and obstacle avoidance. The algorithm uses a modified replay buffer inspired by the Hindsight Experience Replay (HER) approach to artificially populate experience with successful trajectories, effectively addressing the problem of sparse reward scenarios and eliminating the need to manually collect expert demonstrations. The developed algorithm proposes a Transformer-based architecture to incorporate the context of previous states, allowing the agent to perform a deeper analysis and make decisions in a manner more akin to human learning. The effectiveness of the built-in replay buffer, which acts as an ‘internal demonstrator’, is twofold: it accelerates learning and allows the algorithm to adapt to different tasks. Empirical data confirm the superiority of the algorithm by an average of 38.46% over other considered methods, and the most successful baseline by 28.21%, showing higher success rates and faster convergence in the point-reaching task. Since the control is performed through the robot’s joints, the algorithm facilitates potential adaptation to a real robot system and construction of an obstacle avoidance task. Therefore, the algorithm has also been tested on tasks requiring following a complex dynamic trajectory and obstacle avoidance. The design of the algorithm ensures its applicability to a wide range of goal-oriented tasks, making it an easily integrated solution for real-world robotics applications.

arxiv情報

著者 Maria Makarova,Qian Liu,Dzmitry Tsetserukou
発行日 2025-03-20 06:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CONTHER: Human-Like Contextual Robot Learning via Hindsight Experience Replay and Transformers without Expert Demonstrations はコメントを受け付けていません

MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis

要約

ガウスのスプラットスラムは、リアルタイムの再構築の効率と忠実度を改善する上で大きな進歩を遂げました。
ただし、これらのシステムは、障害物または限られたビューアングルによって引き起こされる観測されていないジオメトリのために、実質的な穴を特徴とする複雑な屋内環境で不完全な再構築に遭遇することがよくあります。
この課題に対処するために、マンハッタンの世界仮説を活用して幾何学的精度と完全性を高めるRGB-DシステムであるManhattan Gaussian Slamを提示します。
構造化されたシーンから派生した融合ラインセグメントをシームレスに統合することにより、この方法により、テクステックのない屋内エリアでの堅牢な追跡が保証されます。
さらに、抽出されたラインと平面表面の仮定により、ジオメトリが欠落している地域における新しいガウスの戦略的補間により、シーンの完成が効率的になります。
合成シーンと現実世界の両方のシーンで実施された広範な実験は、これらの進歩により、私たちの方法が最先端のパフォーマンスを達成することができることを示しており、ガウススラムシステムの能力の大幅な改善を示しています。

要約(オリジナル)

Gaussian Splatting SLAMs have made significant advancements in improving the efficiency and fidelity of real-time reconstructions. However, these systems often encounter incomplete reconstructions in complex indoor environments, characterized by substantial holes due to unobserved geometry caused by obstacles or limited view angles. To address this challenge, we present Manhattan Gaussian SLAM, an RGB-D system that leverages the Manhattan World hypothesis to enhance geometric accuracy and completeness. By seamlessly integrating fused line segments derived from structured scenes, our method ensures robust tracking in textureless indoor areas. Moreover, The extracted lines and planar surface assumption allow strategic interpolation of new Gaussians in regions of missing geometry, enabling efficient scene completion. Extensive experiments conducted on both synthetic and real-world scenes demonstrate that these advancements enable our method to achieve state-of-the-art performance, marking a substantial improvement in the capabilities of Gaussian SLAM systems.

arxiv情報

著者 Shuhong Liu,Tianchen Deng,Heng Zhou,Liuzhuozheng Li,Hongyu Wang,Danwei Wang,Mingrui Li
発行日 2025-03-20 07:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis はコメントを受け付けていません

Development of a Magnetorheological Hand Exoskeleton Featuring High Force-to-power Ratio for Enhancing Grip Endurance

要約

手骨型は、手握りの疲労を軽減し、手の強度を高め、怪我を防止することにより、労働集約型のフィールドに重大な潜在能力を持っています。
さらに、彼らはまた、高出力消費、複雑でかさばる支援システム、および高い不安定性の欠点があります。この作業では、グリップの持久力を改善するために高い力と力の比率を提供する磁気(MR)クラッチと統合された新しい手骨格を開発します。
クラッチは、強化された構造設計、マイクロローラー強化構造を備えており、これは出力力を大幅に高めることができます。
実験データは、クラッチが1.48 Wの消費量で380 Nのピーク保持力を提供できることを示しており、256.75N/Wの力と力と力の比率は、手指脱販売に使用される最良のアクチュエーターの2.35倍高くなっています。
設計されたMr Hand Exoskeletonは高度に統合されており、外骨格フレーム、Mr Clutches、コントロールユニット、バッテリーで構成されています。
静的グリップ持久力テストと動的な持ち運びおよび持ち上げテストによる評価は、MRハンドエクセレトンが筋肉の疲労を効果的に軽減し、グリップ持久力を延長し、怪我を最小限に抑えることができることを確認しています。
これらの調査結果は、産業環境での持ち運びや持ち上げなどの反復タスクにおける実用的なアプリケーションの強力な可能性を強調しています。

要約(オリジナル)

Hand exoskeletons have significant potential in labor-intensive fields by mitigating hand grip fatigue, enhancing hand strength, and preventing injuries.However, most traditional hand exoskeletons are driven by motors whose output force is limited under constrained installation conditions. In addition, they also come with the disadvantages of high power consumption, complex and bulky assistive systems, and high instability.In this work, we develop a novel hand exoskeleton integrated with magnetorheological (MR) clutches that offers a high force-to-power ratio to improve grip endurance. The clutch features an enhanced structure design, a micro roller enhancing structure, which can significantly boost output forces. The experimental data demonstrate that the clutch can deliver a peak holding force of 380 N with a consumption of 1.48 W, yielding a force-to-power ratio of 256.75N/W, which is 2.35 times higher than the best reported actuator used for hand exoskeletons. The designed MR hand exoskeleton is highly integrated and comprises an exoskeleton frame, MR clutches, a control unit, and a battery. Evaluations through static grip endurance tests and dynamic carrying and lifting tests confirm that the MR hand exoskeleton can effectively reduce muscle fatigue, extend grip endurance, and minimize injuries. These findings highlight its strong potential for practical applications in repetitive tasks such as carrying and lifting in industrial settings.

arxiv情報

著者 Wenbo Li,Xianlong Mai,Ying Li
発行日 2025-03-20 07:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Development of a Magnetorheological Hand Exoskeleton Featuring High Force-to-power Ratio for Enhancing Grip Endurance はコメントを受け付けていません

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

要約

近年、ロボット強化学習(RL)の分野で大きな進歩が遂げられ、複雑な画像観測を処理し、現実の世界で訓練し、デモや以前の経験などの補助データを組み込む方法を可能にします。
ただし、これらの進歩にもかかわらず、ロボットRLは使用が難しいままです。
実務家の間では、これらのアルゴリズムの特定の実装の詳細は、アルゴリズムの選択と同じくらいパフォーマンスにとって重要であることが多いことが認められています。
ロボットRLの広範な採用に対する重要な課題と、ロボットRLメソッドのさらなる開発は、そのような方法の比較可能性であると仮定します。
この課題に対処するために、報酬を計算し、環境をリセットする方法、広く採用されたロボット用の高品質のコントローラー、および多くの挑戦的な例タスクとともに、サンプル効率的なオフポリティディープRLメソッドを含む慎重に実装されたライブラリを開発しました。
このライブラリをコミュニティのリソースとして提供し、その設計の選択を説明し、実験結果を提示します。
おそらく驚くべきことに、私たちの実装は非常に効率的な学習を達成し、PCBボードアセンブリ、ケーブルルーティング、およびポリシーごとに25〜50分間のトレーニングの間のオブジェクトの移転を取得し、文献の同様のタスクで報告された最先端の結果よりも改善できることがわかりました。
これらのポリシーは、完全なまたはほぼ完璧な成功率、摂動下でも極端な堅牢性を達成し、緊急の回復と修正行動を示します。
これらの有望な結果と当社の高品質のオープンソース実装が、ロボットコミュニティがロボットRLのさらなる開発を促進するためのツールを提供することを願っています。
私たちのコード、ドキュメント、ビデオはhttps://serl-robot.github.io/にあります

要約(オリジナル)

In recent years, significant progress has been made in the field of robotic reinforcement learning (RL), enabling methods that handle complex image observations, train in the real world, and incorporate auxiliary data, such as demonstrations and prior experience. However, despite these advances, robotic RL remains hard to use. It is acknowledged among practitioners that the particular implementation details of these algorithms are often just as important (if not more so) for performance as the choice of algorithm. We posit that a significant challenge to widespread adoption of robotic RL, as well as further development of robotic RL methods, is the comparative inaccessibility of such methods. To address this challenge, we developed a carefully implemented library containing a sample efficient off-policy deep RL method, together with methods for computing rewards and resetting the environment, a high-quality controller for a widely-adopted robot, and a number of challenging example tasks. We provide this library as a resource for the community, describe its design choices, and present experimental results. Perhaps surprisingly, we find that our implementation can achieve very efficient learning, acquiring policies for PCB board assembly, cable routing, and object relocation between 25 to 50 minutes of training per policy on average, improving over state-of-the-art results reported for similar tasks in the literature. These policies achieve perfect or near-perfect success rates, extreme robustness even under perturbations, and exhibit emergent recovery and correction behaviors. We hope that these promising results and our high-quality open-source implementation will provide a tool for the robotics community to facilitate further developments in robotic RL. Our code, documentation, and videos can be found at https://serl-robot.github.io/

arxiv情報

著者 Jianlan Luo,Zheyuan Hu,Charles Xu,You Liang Tan,Jacob Berg,Archit Sharma,Stefan Schaal,Chelsea Finn,Abhishek Gupta,Sergey Levine
発行日 2025-03-20 09:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning はコメントを受け付けていません

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

要約

強化学習(RL)は、複雑なロボット操作スキルの自律的な獲得を可能にするための大きな可能性を秘めていますが、実際の設定でこの可能性を実現することは困難です。
動的操作、精密アセンブリ、デュアルアーム調整など、さまざまな器用な操作タスクで印象的なパフォーマンスを実証するループインビジョンベースのRLシステムを紹介します。
当社のアプローチは、デモンストレーションと人間の修正、効率的なRLアルゴリズム、およびその他のシステムレベルの設計の選択を統合して、トレーニングからわずか1〜2.5時間以内にほぼ完璧な成功率と高速サイクル時間を達成するポリシーを学習します。
私たちの方法は、成功率が平均2倍改善され、1.8倍の速い実行で、模倣学習ベースラインと以前のRLアプローチを大幅に上回ることを示しています。
広範な実験と分析を通じて、私たちのアプローチの有効性に関する洞察を提供し、反応的制御戦略と予測制御戦略の両方に対して堅牢で適応的なポリシーをどのように学習するかを示します。
我々の結果は、RLが実際に実践的なトレーニング時間内に現実の世界で直接、幅広い複雑な視覚ベースの操作ポリシーを学ぶことができることを示唆しています。
この作品が、産業用途と研究の進歩の両方に利益をもたらし、学んだロボット操作技術の新世代に刺激を与えることを願っています。
ビデオとコードは、プロジェクトWebサイトhttps://hil-serl.github.io/で入手できます。

要約(オリジナル)

Reinforcement learning (RL) holds great promise for enabling autonomous acquisition of complex robotic manipulation skills, but realizing this potential in real-world settings has been challenging. We present a human-in-the-loop vision-based RL system that demonstrates impressive performance on a diverse set of dexterous manipulation tasks, including dynamic manipulation, precision assembly, and dual-arm coordination. Our approach integrates demonstrations and human corrections, efficient RL algorithms, and other system-level design choices to learn policies that achieve near-perfect success rates and fast cycle times within just 1 to 2.5 hours of training. We show that our method significantly outperforms imitation learning baselines and prior RL approaches, with an average 2x improvement in success rate and 1.8x faster execution. Through extensive experiments and analysis, we provide insights into the effectiveness of our approach, demonstrating how it learns robust, adaptive policies for both reactive and predictive control strategies. Our results suggest that RL can indeed learn a wide range of complex vision-based manipulation policies directly in the real world within practical training times. We hope this work will inspire a new generation of learned robotic manipulation techniques, benefiting both industrial applications and research advancements. Videos and code are available at our project website https://hil-serl.github.io/.

arxiv情報

著者 Jianlan Luo,Charles Xu,Jeffrey Wu,Sergey Levine
発行日 2025-03-20 09:16:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning はコメントを受け付けていません

A Laser-guided Interaction Interface for Providing Effective Robot Assistance to People with Upper Limbs Impairments

要約

ロボット工学は、障害のある人々が日常活動への独立性と関与を強化するのを支援する重要な可能性を示しています。
実際、インテリジェントロボットインターフェイスの展開に関するホームケア支援には、社会的長期的な影響が期待されています。
この作品は、日常生活の活動において、脳卒中の怪我の影響を受けた人など、上肢の障害を持つ人々を支援するために開発された人間のロボットインターフェイスを提示します。
提案されたインターフェイスは、視覚的なサーボガイダンスコンポーネントを活用します。これは、安価で効果的なレーザーエミッターデバイスを利用しています。
ロボットのワークスペース内の表面にレーザーを投影することにより、ユーザーはロボットマニピュレーターを目的の場所に導き、オブジェクトに到達、把握、操作することができます。
ターゲットユーザーを考慮すると、レーザーエミッタは頭に装着されており、環境内のレーザーを指すヘッドの動きでロボットの動きを直感的に制御できます。これは、ニューラルネットワークベースの知覚モジュールで検出されます。
インターフェイスは2つの制御モダリティを実装します。最初にユーザーが特定の場所を直接選択できるようにし、ロボットにそれらのポイントに到達するように命じます。
2番目は、ボタンを備えた紙キーボードを採用しています。ボタンは、レーザーを指すことで事実上押すことができます。
これらのボタンは、エンドエフェクターのデカルト速度をより直接的に制御できるようにし、グリッパーのアクションを指揮するなどの追加の機能を提供します。
提案されたインターフェイスは、1DOFのくちばしのようなグリッパーを備えた6DOF支援ロボットマニピュレーターを含む一連の操作タスクで評価されます。
2つのインターフェイスのモダリティを組み合わせて、上肢障害のある人に通常影響を受ける両手能力を必要とするタスクを正常に達成します。

要約(オリジナル)

Robotics has shown significant potential in assisting people with disabilities to enhance their independence and involvement in daily activities. Indeed, a societal long-term impact is expected in home-care assistance with the deployment of intelligent robotic interfaces. This work presents a human-robot interface developed to help people with upper limbs impairments, such as those affected by stroke injuries, in activities of everyday life. The proposed interface leverages on a visual servoing guidance component, which utilizes an inexpensive but effective laser emitter device. By projecting the laser on a surface within the workspace of the robot, the user is able to guide the robotic manipulator to desired locations, to reach, grasp and manipulate objects. Considering the targeted users, the laser emitter is worn on the head, enabling to intuitively control the robot motions with head movements that point the laser in the environment, which projection is detected with a neural network based perception module. The interface implements two control modalities: the first allows the user to select specific locations directly, commanding the robot to reach those points; the second employs a paper keyboard with buttons that can be virtually pressed by pointing the laser at them. These buttons enable a more direct control of the Cartesian velocity of the end-effector and provides additional functionalities such as commanding the action of the gripper. The proposed interface is evaluated in a series of manipulation tasks involving a 6DOF assistive robot manipulator equipped with 1DOF beak-like gripper. The two interface modalities are combined to successfully accomplish tasks requiring bimanual capacity that is usually affected in people with upper limbs impairments.

arxiv情報

著者 Davide Torielli,Liana Bertoni,Luca Muratore,Nikos Tsagarakis
発行日 2025-03-20 09:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Laser-guided Interaction Interface for Providing Effective Robot Assistance to People with Upper Limbs Impairments はコメントを受け付けていません