DITTO: Demonstration Imitation by Trajectory Transformation


ロボットに新しいスキルを迅速かつ便利に教えることは、ロボット システムをより広範に導入するために不可欠です。
この研究では、RGB-D ビデオ記録によって与えられる、1 人の人間のデモンストレーションからのワンショットの模倣の問題に取り組みます。
私たちは 2 段階のプロセスを提案します。
具体的には、ピックアンドプレイスタスクや多関節オブジェクトの操作など、10 種類のタスクのデモンストレーションを収集し、定量的にテストします。
最後に、実際のロボット システムで広範な評価を実行し、現実世界のシナリオにおけるアプローチの有効性と有用性を実証します。
コードは http://ditto.cs.uni-freiburg.de で公開されています。


Teaching robots new skills quickly and conveniently is crucial for the broader adoption of robotic systems. In this work, we address the problem of one-shot imitation from a single human demonstration, given by an RGB-D video recording. We propose a two-stage process. In the first stage we extract the demonstration trajectory offline. This entails segmenting manipulated objects and determining their relative motion in relation to secondary objects such as containers. In the online trajectory generation stage, we first re-detect all objects, then warp the demonstration trajectory to the current scene and execute it on the robot. To complete these steps, our method leverages several ancillary models, including those for segmentation, relative object pose estimation, and grasp prediction. We systematically evaluate different combinations of correspondence and re-detection methods to validate our design decision across a diverse range of tasks. Specifically, we collect and quantitatively test on demonstrations of ten different tasks including pick-and-place tasks as well as articulated object manipulation. Finally, we perform extensive evaluations on a real robot system to demonstrate the effectiveness and utility of our approach in real-world scenarios. We make the code publicly available at http://ditto.cs.uni-freiburg.de.


著者 Nick Heppert,Max Argus,Tim Welschehold,Thomas Brox,Abhinav Valada
発行日 2024-10-02 11:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling


言語モデル エージェントの最近の進歩にもかかわらず、言語モデル エージェントは依然として計画エラーを起こしやすく、事前に計画する能力が限られています。
一方、入れ子になった平衡シーケンス モデリング手順は、環境 (または内部世界モデル) からの有用なフィードバックを組み込んだ効率的な閉ループ計画のために考案されています。
私たちの手法は VirtualHome-Env ベンチマークで評価され、推論計算のスケーリングが改善された高度なパフォーマンスを示しています。
コードは https://github.com/Singularity0104/equilibrium-planner で入手できます。


In the endeavor to make autonomous robots take actions, task planning is a major challenge that requires translating high-level task descriptions into long-horizon action sequences. Despite recent advances in language model agents, they remain prone to planning errors and limited in their ability to plan ahead. To address these limitations in robotic planning, we advocate a self-refining scheme that iteratively refines a draft plan until an equilibrium is reached. Remarkably, this process can be optimized end-to-end from an analytical perspective without the need to curate additional verifiers or reward models, allowing us to train self-refining planners in a simple supervised learning fashion. Meanwhile, a nested equilibrium sequence modeling procedure is devised for efficient closed-loop planning that incorporates useful feedback from the environment (or an internal world model). Our method is evaluated on the VirtualHome-Env benchmark, showing advanced performance with better scaling for inference computation. Code is available at https://github.com/Singularity0104/equilibrium-planner.


著者 Jinghan Li,Zhicheng Sun,Fei Li,Cao Sheng,Jiazhong Yu,Yadong Mu
発行日 2024-10-02 11:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Rapid Gyroscope Calibration: A Deep Learning Approach


私たちのアプローチをトレーニングして検証するために、2 つの異なるブランドの 24 台のジャイロスコープを使用して、169 時間のジャイロスコープの読み取り値からなるデータセットを記録しました。
2 つのデータセットは、提案されたアプローチを評価するために使用されました。
この取り組みにおける私たちの主な成果の 1 つは、3 つの低コスト ジャイロスコープを使用して、ジャイロスコープの校正時間を最大 89% 短縮したことです。


Low-cost gyroscope calibration is essential for ensuring the accuracy and reliability of gyroscope measurements. Stationary calibration estimates the deterministic parts of measurement errors. To this end, a common practice is to average the gyroscope readings during a predefined period and estimate the gyroscope bias. Calibration duration plays a crucial role in performance, therefore, longer periods are preferred. However, some applications require quick startup times and calibration is therefore allowed only for a short time. In this work, we focus on reducing low-cost gyroscope calibration time using deep learning methods. We propose a deep-learning framework and explore the possibilities of using multiple real and virtual gyroscopes to improve the calibration performance of single gyroscopes. To train and validate our approach, we recorded a dataset consisting of 169 hours of gyroscope readings, using 24 gyroscopes of two different brands. We also created a virtual dataset consisting of simulated gyroscope readings. The two datasets were used to evaluate our proposed approach. One of our key achievements in this work is reducing gyroscope calibration time by up to 89% using three low-cost gyroscopes.


著者 Yair Stolero,Itzik Klein
発行日 2024-10-02 12:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP | コメントする

Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning


マルチモーダルなタスク仕様は、ロボットのパフォーマンスを向上させるために不可欠であり、 \textit{クロスモダリティ アライメント} により、ロボットは複雑なタスクの指示を総合的に理解できるようになります。
モデルのトレーニングのためにマルチモーダル命令に直接注釈を付けることは、ペアになったマルチモーダル データがまばらであるため、非現実的であることがわかります。
まず、広範なドメイン外データを使用してロボット マルチモーダル エンコーダーを事前トレーニングすることで、ロボットに強力な \textit{クロスモダリティ アライメント} 機能を与えます。
次に、2 つの Collapse 操作と Corrupt 操作を使用して、学習されたマルチモーダル表現に残っているモダリティ ギャップをさらに橋渡しします。
ウェブサイト: zh1hao.wang/Robo_MUTUAL


Multimodal task specification is essential for enhanced robotic performance, where \textit{Cross-modality Alignment} enables the robot to holistically understand complex task instructions. Directly annotating multimodal instructions for model training proves impractical, due to the sparsity of paired multimodal data. In this study, we demonstrate that by leveraging unimodal instructions abundant in real data, we can effectively teach robots to learn multimodal task specifications. First, we endow the robot with strong \textit{Cross-modality Alignment} capabilities, by pretraining a robotic multimodal encoder using extensive out-of-domain data. Then, we employ two Collapse and Corrupt operations to further bridge the remaining modality gap in the learned multimodal representation. This approach projects different modalities of identical task goal as interchangeable representations, thus enabling accurate robotic operations within a well-aligned multimodal latent space. Evaluation across more than 130 tasks and 4000 evaluations on both simulated LIBERO benchmark and real robot platforms showcases the superior capabilities of our proposed framework, demonstrating significant advantage in overcoming data constraints in robotic learning. Website: zh1hao.wang/Robo_MUTUAL


著者 Jianxiong Li,Zhihao Wang,Jinliang Zheng,Xiaoai Zhou,Guanming Wang,Guanglu Song,Yu Liu,Jingjing Liu,Ya-Qin Zhang,Junzhi Yu,Xianyuan Zhan
発行日 2024-10-02 13:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Ankle Exoskeletons May Hinder Standing Balance in Simple Models of Older and Younger Adults




Humans rely on ankle torque to maintain standing balance, particularly in the presence of small to moderate perturbations. Reductions in maximum torque (MT) production and maximum rate of torque development (MRTD) occur at the ankle with age, diminishing stability. Ankle exoskeletons are powered orthotic devices that may assist older adults by compensating for reduced muscle force and power production capabilities. They may also be able to assist with ankle strategies used for balance. However, no studies have investigated the effect of such devices on balance in older adults. Here, we model the effect ankle exoskeletons have on stability in physics-based models of healthy young and old adults, focusing on the mitigation of age-related deficits such as reduced MT and MRTD. We show that an ankle exoskeleton moderately reduces feasible stability boundaries in users who have full ankle strength. For individuals with age-related deficits, there is a trade-off. While exoskeletons augment stability in low velocity conditions, they reduce stability in some high velocity conditions. Our results suggest that well-established control strategies must still be experimentally validated in older adults.


著者 Daphna Raz,Varun Joshi,Brian R. Umberger,Necmiye Ozay
発行日 2024-10-02 13:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.med-ph | コメントする

Sensory Glove-Based Surgical Robot User Interface


さらなる改善が期待できる領域の 1 つは、最新の感覚グローブをロボット プラットフォームに統合し、外科医が手の動きでロボット アームを直感的に制御できるようにすることです。
私たちは、HTC Vive トラッカー、Manus Meta Prime 3 XR 感覚グローブ、および SCOPEYE ワイヤレス スマート グラスを組み合わせたシステムの 1 つを提案します。
このシステムは、ダ ヴィンチ手術ロボットの 1 つのアームを制御します。
特に、da Vinci システムでは利用できない機能である、機器の方向のクラッチを導入します。
グローブの振動触覚要素は、ジェスチャー コマンドが呼び出されたときにユーザーにフィードバックを提供するために使用されます。
現在のデバイスと dVRK コンソールを比較する定性的および定量的な評価が実施されました。


Robotic surgery has reached a high level of maturity and has become an integral part of standard surgical care. However, existing surgeon consoles are bulky, take up valuable space in the operating room, make surgical team coordination challenging, and their proprietary nature makes it difficult to take advantage of recent technological advances, especially in virtual and augmented reality. One potential area for further improvement is the integration of modern sensory gloves into robotic platforms, allowing surgeons to control robotic arms intuitively with their hand movements. We propose one such system that combines an HTC Vive tracker, a Manus Meta Prime 3 XR sensory glove, and SCOPEYE wireless smart glasses. The system controls one arm of a da Vinci surgical robot. In addition to moving the arm, the surgeon can use fingers to control the end-effector of the surgical instrument. Hand gestures are used to implement clutching and similar functions. In particular, we introduce clutching of the instrument orientation, a functionality unavailable in the da Vinci system. The vibrotactile elements of the glove are used to provide feedback to the user when gesture commands are invoked. A qualitative and quantitative evaluation has been conducted that compares the current device with the dVRK console. The system is shown to have excellent tracking accuracy, and the new interface allows surgeons to perform common surgical training tasks with minimal practice efficiently.


著者 Leonardo Borgioli,Ki-Hwan Oh,Valentina Valle,Alvaro Ducas,Mohammad Halloum,Diego Federico Mendoza Medina,Arman Sharifi,Paula A L’opez,Jessica Cassiani,Milos Zefran,Liaohai Chen,Pier Cristoforo Giulianotti
発行日 2024-10-02 14:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Computational Teaching for Driving via Multi-Task Imitation Learning


このデータ不足の問題に対処するために、マルチタスク模倣学習 (MTIL) パラダイムを介して、高性能運転などの複雑な運動タスクのコーチング システムをトレーニングするアプローチを提案します。
MTIL を使用すると、対象のタスクを実行する人間のより容易に利用可能な非対話型データセットからの自己教師ありトレーニング信号を利用して、モデルが堅牢な表現を学習できるようになります。
私たちは、(1) 実際の人間の運転軌跡から作成された半合成データセット、(2) プロのトラック運転指導データセット、(3) トラックレーシング運転シミュレーターの人間と被験者の研究、(4) システムを使用してアプローチを検証します。


Learning motor skills for sports or performance driving is often done with professional instruction from expert human teachers, whose availability is limited. Our goal is to enable automated teaching via a learned model that interacts with the student similar to a human teacher. However, training such automated teaching systems is limited by the availability of high-quality annotated datasets of expert teacher and student interactions that are difficult to collect at scale. To address this data scarcity problem, we propose an approach for training a coaching system for complex motor tasks such as high performance driving via a Multi-Task Imitation Learning (MTIL) paradigm. MTIL allows our model to learn robust representations by utilizing self-supervised training signals from more readily available non-interactive datasets of humans performing the task of interest. We validate our approach with (1) a semi-synthetic dataset created from real human driving trajectories, (2) a professional track driving instruction dataset, (3) a track-racing driving simulator human-subject study, and (4) a system demonstration on an instrumented car at a race track. Our experiments show that the right set of auxiliary machine learning tasks improves performance in predicting teaching instructions. Moreover, in the human subjects study, students exposed to the instructions from our teaching system improve their ability to stay within track limits, and show favorable perception of the model’s interaction with them, in terms of usefulness and satisfaction.


著者 Deepak Gopinath,Xiongyi Cui,Jonathan DeCastro,Emily Sumner,Jean Costa,Hiroshi Yasuda,Allison Morgan,Laporsha Dees,Sheryl Chau,John Leonard,Tiffany Chen,Guy Rosman,Avinash Balachandran
発行日 2024-10-02 14:47:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration


マルチエージェント強化学習 (MARL) の出現は、自動運転車ネットワークなどのさまざまな分野を大きく変えています。
ただし、現実のマルチエージェント システムには通常、複数の役割が含まれており、これらのシステムの規模は動的に変動します。
したがって、ゼロショットでスケーラブルなコラボレーションを実現するには、さまざまな役割の戦略を規模に応じて柔軟に更新できることが不可欠ですが、これは現在の MARL フレームワークにとって依然として課題です。
これに対処するために、パラメータ共有 PPO ベースの MARL ネットワークに異種性を統合する、Scalable and Heterogeneous Proximal Policy Optimization (SHPPO) という名前の新しい MARL フレームワークを提案します。
第 2 に、意思決定ネットワークに挿入される異種レイヤーを導入します。このレイヤーのパラメーターは、学習された潜在変数によって特別に生成されます。
私たちのアプローチは、異種レイヤーを除くすべてのパラメーターが共有されるためスケーラブルであり、個人間および時間的異質性の両方を獲得し、SHPPO がさまざまなスケールに効果的に適応できるようにします。
SHPPO は、Starcraft Multi-Agent Challenge (SMAC) や Google Research Football (GRF) などの古典的な MARL 環境で優れたパフォーマンスを示し、強化されたゼロショット スケーラビリティを示し、視覚化によって学習された潜在変数がチームのパフォーマンスに与える影響についての洞察を提供します。


The emergence of multi-agent reinforcement learning (MARL) is significantly transforming various fields like autonomous vehicle networks. However, real-world multi-agent systems typically contain multiple roles, and the scale of these systems dynamically fluctuates. Consequently, in order to achieve zero-shot scalable collaboration, it is essential that strategies for different roles can be updated flexibly according to the scales, which is still a challenge for current MARL frameworks. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. We first leverage a latent network to learn strategy patterns for each agent adaptively. Second, we introduce a heterogeneous layer to be inserted into decision-making networks, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity, allowing SHPPO to adapt effectively to varying scales. SHPPO exhibits superior performance in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability, and offering insights into the learned latent variables’ impact on team performance by visualization.


著者 Xudong Guo,Daming Shi,Junjie Yu,Wenhui Fan
発行日 2024-10-02 14:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY | コメントする

Entropy-Based Uncertainty Modeling for Trajectory Prediction in Autonomous Driving


私たちは、さまざまなモデル アーキテクチャと構成が不確実性の定量化とモデルの堅牢性にどのような影響を与えるかを評価するために、nuScenes データセットに対して広範な実験を実施しました。


In autonomous driving, accurate motion prediction is essential for safe and efficient motion planning. To ensure safety, planners must rely on reliable uncertainty information about the predicted future behavior of surrounding agents, yet this aspect has received limited attention. This paper addresses the so-far neglected problem of uncertainty modeling in trajectory prediction. We adopt a holistic approach that focuses on uncertainty quantification, decomposition, and the influence of model composition. Our method is based on a theoretically grounded information-theoretic approach to measure uncertainty, allowing us to decompose total uncertainty into its aleatoric and epistemic components. We conduct extensive experiments on the nuScenes dataset to assess how different model architectures and configurations affect uncertainty quantification and model robustness.


著者 Aron Distelzweig,Andreas Look,Eitan Kosman,Faris Janjoš,Jörg Wagner,Abhinav Valadaa
発行日 2024-10-02 15:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

One-Shot Robust Imitation Learning for Long-Horizon Visuomotor Tasks from Unsegmented Demonstrations


人間のスキルをロボットに伝達するための効率的なソリューションとして、模倣学習は過去 20 年間で大きな進歩を遂げました。
この論文では、動的動作プリミティブとメタ学習を活用して、適応動的プリミティブ (MiLa) を​​使用したメタ模倣学習と呼ばれる、模倣学習のための新しいフレームワークを提供します。
MiLa を使用すると、セグメント化されていない長期的なデモンストレーションを学習し、単一のデモンストレーションで目に見えないタスクに適応することができます。
MiLa は、タスク実行中の外部妨害や視覚的遮蔽にも耐えることができます。
実際のロボット実験では、ロボット上の視覚的な遮蔽やランダムな摂動に関係なく、MiLa の優位性が実証されています。


In contrast to single-skill tasks, long-horizon tasks play a crucial role in our daily life, e.g., a pouring task requires a proper concatenation of reaching, grasping and pouring subtasks. As an efficient solution for transferring human skills to robots, imitation learning has achieved great progress over the last two decades. However, when learning long-horizon visuomotor skills, imitation learning often demands a large amount of semantically segmented demonstrations. Moreover, the performance of imitation learning could be susceptible to external perturbation and visual occlusion. In this paper, we exploit dynamical movement primitives and meta-learning to provide a new framework for imitation learning, called Meta-Imitation Learning with Adaptive Dynamical Primitives (MiLa). MiLa allows for learning unsegmented long-horizon demonstrations and adapting to unseen tasks with a single demonstration. MiLa can also resist external disturbances and visual occlusion during task execution. Real-world robotic experiments demonstrate the superiority of MiLa, irrespective of visual occlusion and random perturbations on robots.


著者 Shaokang Wu,Yijin Wang,Yanlong Huang
発行日 2024-10-02 15:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする