Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation

要約

マルチタスクロボット操作の視覚運動ポリシーを学ぶことは、ロボットコミュニティにとって長年の課題でした。
難易度はアクション空間の多様性にあります。通常、目標は複数の方法で達成できるため、単一のタスクのマルチモーダルアクション分布になります。
アクション分布の複雑さは、タスクの数が増えるとエスカレートします。
この作業では、マルチタスク操作スキルが可能な普遍的なエージェントをトレーニングするためのロボット学習方法である\ textBF {Disclete Policy}を提案します。
離散ポリシーは、ベクトル量子化を使用して、アクションシーケンスを離散潜在スペースにマッピングし、タスク固有のコードの学習を促進します。
これらのコードは、観測と言語指導を条件とするアクションスペースに再構築されます。
シミュレーションと複数の現実世界の実施形態の両方で、単一腕と両腕の両方のロボット設定を含む方法を評価します。
提案された個別のポリシーは、確立された拡散ポリシーのベースラインと、ACT、Octo、OpenVLAなどの多くの最先端のアプローチよりも優れていることを実証します。
たとえば、5つのタスクを備えた現実世界のマルチタスクトレーニング設定では、個別のポリシーは、拡散ポリシーよりも26 \%高く、OpenVLAよりも15%高い平均成功率を達成します。
タスクの数が12に増加すると、離散ポリシーと拡散ポリシーのパフォーマンスギャップは32.5 \%に広がり、アプローチの利点をさらに紹介します。
私たちの研究は、潜在空間内でマルチタスクポリシーを学習することが、汎用エージェントを達成するための重要なステップであることを経験的に示しています。

要約(オリジナル)

Learning visuomotor policy for multi-task robotic manipulation has been a long-standing challenge for the robotics community. The difficulty lies in the diversity of action space: typically, a goal can be accomplished in multiple ways, resulting in a multimodal action distribution for a single task. The complexity of action distribution escalates as the number of tasks increases. In this work, we propose \textbf{Discrete Policy}, a robot learning method for training universal agents capable of multi-task manipulation skills. Discrete Policy employs vector quantization to map action sequences into a discrete latent space, facilitating the learning of task-specific codes. These codes are then reconstructed into the action space conditioned on observations and language instruction. We evaluate our method on both simulation and multiple real-world embodiments, including both single-arm and bimanual robot settings. We demonstrate that our proposed Discrete Policy outperforms a well-established Diffusion Policy baseline and many state-of-the-art approaches, including ACT, Octo, and OpenVLA. For example, in a real-world multi-task training setting with five tasks, Discrete Policy achieves an average success rate that is 26\% higher than Diffusion Policy and 15\% higher than OpenVLA. As the number of tasks increases to 12, the performance gap between Discrete Policy and Diffusion Policy widens to 32.5\%, further showcasing the advantages of our approach. Our work empirically demonstrates that learning multi-task policies within the latent space is a vital step toward achieving general-purpose agents.

arxiv情報

著者 Kun Wu,Yichen Zhu,Jinming Li,Junjie Wen,Ning Liu,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 11:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation はコメントを受け付けていません

IRIS: An Immersive Robot Interaction System

要約

このペーパーでは、複数のシミュレータ、ベンチマーク、実際のシナリオにわたってロボットデータ収集と相互作用のために設計された拡張現実(XR)を活用する没入型ロボット相互作用システムであるIRISを紹介します。
既存のXRベースのデータ収集システムは、大規模なデータ収集に効率的かつ直感的なソリューションを提供しますが、多くの場合、再現して再利用するのが困難です。
現在のシステムは、シミュレーター固有のユースケースと環境に高度に調整されているため、この制限が生じます。
Irisは、複数のシミュレータ、ベンチマーク、さらにはヘッドセットをサポートする斬新で簡単に拡張可能なフレームワークです。
さらに、IRISは、深度カメラを介してキャプチャされたポイントクラウドなど、実際のセンサーからの追加情報を含めることができます。
統一されたシーン仕様は、シミュレーターまたは実際のセンサーから直接生成され、XRヘッドセットに送信され、XRで同じシーンが作成されます。
この仕様により、IRISはシミュレータが提供するオブジェクト、アセット、およびロボットのいずれかをサポートできます。
さらに、IRISは、共有された空間アンカーと、複数のXRヘッドセット間のシミュレーションをリンクする堅牢な通信プロトコルを導入します。
この機能により、複数のXRヘッドセットが同期シーンを共有し、共同およびマルチユーザーのデータ収集を促進できます。
IRISは、Unity Frameworkをサポートする任意のデバイスに展開でき、市販のヘッドセットの大部分を網羅しています。
この作業では、IRISがMeta Quest 3とHololens 2で展開され、テストされました。IRISは、Mujoco、Isaacsim、Coppeliasim、および象徴などの現在の人気のロボットシミュレーターを使用して、幅広い現実世界およびシミュレートされたシナリオにわたってその汎用性を紹介しました。

さらに、ユーザー調査では、リベロベンチマークのデータ収集タスクに関するIRISを評価します。
この研究は、虹彩が目的メトリックと主観的なメトリックの両方でベースラインを大幅に上回ることを示しています。

要約(オリジナル)

This paper introduces IRIS, an immersive Robot Interaction System leveraging Extended Reality (XR), designed for robot data collection and interaction across multiple simulators, benchmarks, and real-world scenarios. While existing XR-based data collection systems provide efficient and intuitive solutions for large-scale data collection, they are often challenging to reproduce and reuse. This limitation arises because current systems are highly tailored to simulator-specific use cases and environments. IRIS is a novel, easily extendable framework that already supports multiple simulators, benchmarks, and even headsets. Furthermore, IRIS is able to include additional information from real-world sensors, such as point clouds captured through depth cameras. A unified scene specification is generated directly from simulators or real-world sensors and transmitted to XR headsets, creating identical scenes in XR. This specification allows IRIS to support any of the objects, assets, and robots provided by the simulators. In addition, IRIS introduces shared spatial anchors and a robust communication protocol that links simulations between multiple XR headsets. This feature enables multiple XR headsets to share a synchronized scene, facilitating collaborative and multi-user data collection. IRIS can be deployed on any device that supports the Unity Framework, encompassing the vast majority of commercially available headsets. In this work, IRIS was deployed and tested on the Meta Quest 3 and the HoloLens 2. IRIS showcased its versatility across a wide range of real-world and simulated scenarios, using current popular robot simulators such as MuJoCo, IsaacSim, CoppeliaSim, and Genesis. In addition, a user study evaluates IRIS on a data collection task for the LIBERO benchmark. The study shows that IRIS significantly outperforms the baseline in both objective and subjective metrics.

arxiv情報

著者 Xinkai Jiang,Qihao Yuan,Enes Ulas Dincer,Hongyi Zhou,Ge Li,Xueyin Li,Julius Haag,Nicolas Schreiber,Kailai Li,Gerhard Neumann,Rudolf Lioutikov
発行日 2025-02-17 11:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | IRIS: An Immersive Robot Interaction System はコメントを受け付けていません

Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration

要約

間接的な発話行為(ISA)は、人間のコミュニケーションの自然な実用的な特徴であり、微妙さと柔軟性を維持しながら、要求を暗黙的に伝えることができます。
音声認識の進歩により、直接的な明示的なコマンド(コミュニケーションの明確さ)を通じてロボットとの自然言語の相互作用が可能になりましたが、大規模な言語モデルの台頭は、ロボットがISAを解釈する可能性を示しています。
ただし、ISAがヒューマンロボットコラボレーション(HRC)に及ぼす影響に関する経験的証拠は限られたままです。
これに対処するために、参加者とロボットを共同の物理的タスクに巻き込んで、魔法使いの研究(n = 36)を実施しました。
私たちの調査結果は、ISAを理解できるロボットが人間の知覚ロボット擬人化、チームのパフォーマンス、および信頼を大幅に改善することを示しています。
ただし、ISASの有効性はタスクおよびコンテキスト依存性であるため、慎重に使用する必要があります。
これらの結果は、HRCの直接および間接的な要求を適切に統合して、共同体験とタスクのパフォーマンスを向上させることの重要性を強調しています。

要約(オリジナル)

Indirect speech acts (ISAs) are a natural pragmatic feature of human communication, allowing requests to be conveyed implicitly while maintaining subtlety and flexibility. Although advancements in speech recognition have enabled natural language interactions with robots through direct, explicit commands–providing clarity in communication–the rise of large language models presents the potential for robots to interpret ISAs. However, empirical evidence on the effects of ISAs on human-robot collaboration (HRC) remains limited. To address this, we conducted a Wizard-of-Oz study (N=36), engaging a participant and a robot in collaborative physical tasks. Our findings indicate that robots capable of understanding ISAs significantly improve human’s perceived robot anthropomorphism, team performance, and trust. However, the effectiveness of ISAs is task- and context-dependent, thus requiring careful use. These results highlight the importance of appropriately integrating direct and indirect requests in HRC to enhance collaborative experiences and task performance.

arxiv情報

著者 Yan Zhang,Tharaka Sachintha Ratnayake,Cherie Sew,Jarrod Knibbe,Jorge Goncalves,Wafa Johal
発行日 2025-02-17 12:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration はコメントを受け付けていません

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation

要約

単一の人間のデモビデオからの学習ツールの使用は、ロボット教育に対する非常に直感的で効率的なアプローチを提供します。
人間は、同じ関数をサポートする多様なツール(例えば、マグカップとティーポットで注ぐ)に実証されたツール操作スキルを簡単に一般化することができますが、現在のワンショット模倣学習(OSIL)メソッドはこれを達成するのに苦労しています。
重要な課題は、同じ関数(つまり、機能内変動)を持つツール間の大幅な幾何学的変動を考慮して、デモンストレーションとテストツールの間に機能的な対応を確立することにあります。
この課題に対処するために、3D機能キーポイント表現との関数中心の対応を確立するOSILメソッドである機能(ツール操作のための関数中心のOSIL)を提案し、ロボットが単一の人間のデモンストレーションビデオから新しいツールにツール操作スキルを一般化できるようにします。
機能内の変動にもかかわらず、同じ機能があります。
この定式化により、(1)機能的なキーポイント抽出、(2)関数中心の対応確立、および(3)機能キーポイントベースのアクションプランニングの3つの段階に因数分解します。
多様なツール操作タスクに関する実際のロボット実験を通じて、モジュール式OSILメソッドとエンドツーエンドの行動クローンメソッドを終了することに対して機能を評価します。
結果は、機能内の幾何学的なバリエーションを持つ新しいツールに一般化する際の機能の優位性を示しています。
詳細については、https://sites.google.com/view/functoをご覧ください。

要約(オリジナル)

Learning tool use from a single human demonstration video offers a highly intuitive and efficient approach to robot teaching. While humans can effortlessly generalize a demonstrated tool manipulation skill to diverse tools that support the same function (e.g., pouring with a mug versus a teapot), current one-shot imitation learning (OSIL) methods struggle to achieve this. A key challenge lies in establishing functional correspondences between demonstration and test tools, considering significant geometric variations among tools with the same function (i.e., intra-function variations). To address this challenge, we propose FUNCTO (Function-Centric OSIL for Tool Manipulation), an OSIL method that establishes function-centric correspondences with a 3D functional keypoint representation, enabling robots to generalize tool manipulation skills from a single human demonstration video to novel tools with the same function despite significant intra-function variations. With this formulation, we factorize FUNCTO into three stages: (1) functional keypoint extraction, (2) function-centric correspondence establishment, and (3) functional keypoint-based action planning. We evaluate FUNCTO against exiting modular OSIL methods and end-to-end behavioral cloning methods through real-robot experiments on diverse tool manipulation tasks. The results demonstrate the superiority of FUNCTO when generalizing to novel tools with intra-function geometric variations. More details are available at https://sites.google.com/view/functo.

arxiv情報

著者 Chao Tang,Anxing Xiao,Yuhong Deng,Tianrun Hu,Wenlong Dong,Hanbo Zhang,David Hsu,Hong Zhang
発行日 2025-02-17 12:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation はコメントを受け付けていません

Early Detection of Human Handover Intentions in Human-Robot Collaboration: Comparing EEG, Gaze, and Hand Motion

要約

ヒューマンロボットコラボレーション(HRC)は、シームレスな相互作用を確保するために、人間の意図を正確かつタイムリーに認識することに依存しています。
一般的なHRCタスクの中で、オブジェクトのレセプション中にロボットのアクションを計画するために、人間からロボットオブジェクトの手観察者が広範囲に研究されてきました。
ただし、ハンドオーバーの意図を他のアクションと区別することは、限られた注目を集めています。
ハンドオーバーに関するほとんどの研究は、動きの軌跡の視覚的検出に焦点を当てており、軌跡が重複すると遅延または誤検出をもたらすことがよくあります。
このペーパーでは、オブジェクトハンドオーバーに対する人間の意図が非運動ベースの生理学的信号に反映されているかどうかを調査します。
脳波(EEG)、視線、およびハンドモーション信号の3つのデータモダリティを比較するマルチモーダル分析を実施します。
私たちの研究の目的は、HRC環境でのハンドオーバー向けの人間の動きと非ハンドオーバー運動を区別し、人間の動きの開始の前後にこれらのアクションを予測および分類する際の各モダリティのパフォーマンスを評価することです。
これらのモダリティに基づいて人間の意図検出器を開発および評価し、ハンドオーバーの意図を特定する際の精度とタイミングを比較します。
私たちの知る限り、これは、人間とロボットの手元と同じ実験的コンテキスト内で、複数のモダリティにわたって意図検出器を体系的に開発およびテストする最初の研究です。
私たちの分析では、3つのモダリティすべてからハンドオーバーの意図が検出できることが明らかになりました。
それにもかかわらず、視線信号は、ハンドオーバーまたは非ハンドオーバーを目的としたモーションを分類するための最も早く、最も正確なものです。

要約(オリジナル)

Human-robot collaboration (HRC) relies on accurate and timely recognition of human intentions to ensure seamless interactions. Among common HRC tasks, human-to-robot object handovers have been studied extensively for planning the robot’s actions during object reception, assuming the human intention for object handover. However, distinguishing handover intentions from other actions has received limited attention. Most research on handovers has focused on visually detecting motion trajectories, which often results in delays or false detections when trajectories overlap. This paper investigates whether human intentions for object handovers are reflected in non-movement-based physiological signals. We conduct a multimodal analysis comparing three data modalities: electroencephalogram (EEG), gaze, and hand-motion signals. Our study aims to distinguish between handover-intended human motions and non-handover motions in an HRC setting, evaluating each modality’s performance in predicting and classifying these actions before and after human movement initiation. We develop and evaluate human intention detectors based on these modalities, comparing their accuracy and timing in identifying handover intentions. To the best of our knowledge, this is the first study to systematically develop and test intention detectors across multiple modalities within the same experimental context of human-robot handovers. Our analysis reveals that handover intention can be detected from all three modalities. Nevertheless, gaze signals are the earliest as well as the most accurate to classify the motion as intended for handover or non-handover.

arxiv情報

著者 Parag Khanna,Nona Rajabi,Sumeyra U. Demir Kanik,Danica Kragic,Mårten Björkman,Christian Smith
発行日 2025-02-17 12:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Early Detection of Human Handover Intentions in Human-Robot Collaboration: Comparing EEG, Gaze, and Hand Motion はコメントを受け付けていません

The Induced Matching Distance: A Novel Topological Metric with Applications in Robotics

要約

このホワイトペーパーでは、対称的な非陰性関数で表される離散構造を比較するように設計された新しいトポロジーメトリックである誘導距離を紹介します。
この概念を適用して、エージェントの軌跡を経時的に分析します。
動的タイムワーピングを使用して軌道の類似性を測定し、0次元の永続性相同性を計算して、関連する接続されたコンポーネントを識別します。
これらのコンポーネントの時間を越えて進化を追跡するために、誘導された一致距離を計算します。これにより、動的な動作の一貫性が維持されます。
次に、時間の経過とともに軌道グループの一貫性を定量化する1次元信号を取得します。
私たちの実験は、私たちのアプローチがさまざまなエージェントの動作を効果的に区別し、ロボット工学および関連分野でのトポロジ分析のための堅牢なツールとしての可能性を強調していることを示しています。

要約(オリジナル)

This paper introduces the induced matching distance, a novel topological metric designed to compare discrete structures represented by a symmetric non-negative function. We apply this notion to analyze agent trajectories over time. We use dynamic time warping to measure trajectory similarity and compute the 0-dimensional persistent homology to identify relevant connected components, which, in our context, correspond to groups of similar trajectories. To track the evolution of these components across time, we compute induced matching distances, which preserve the coherence of their dynamic behavior. We then obtain a 1-dimensional signal that quantifies the consistency of trajectory groups over time. Our experiments demonstrate that our approach effectively differentiates between various agent behaviors, highlighting its potential as a robust tool for topological analysis in robotics and related fields.

arxiv情報

著者 Javier Perera-Lago,Álvaro Torras-Casas,Jérôme Guzzi,Rocio Gonzalez-Diaz
発行日 2025-02-17 13:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.AT | The Induced Matching Distance: A Novel Topological Metric with Applications in Robotics はコメントを受け付けていません

Residual Learning towards High-fidelity Vehicle Dynamics Modeling with Transformer

要約

車両のダイナミクスモデルは、車両状態の時間的変化を説明するため、自律駆動システムの重要なコンポーネントとして機能します。
長い間、研究者は車両のダイナミクスを正確にモデル化するために大きな努力をしてきました。
従来の物理学ベースの方法では、数学的な処方を使用して車両のダイナミクスをモデル化しますが、単純化のために複雑な車両システムを適切に説明することはできません。
深い学習に基づく方法の最近の進歩は、車両のダイナミクスを直接回帰することにより、この制限に対処しています。
ただし、パフォーマンスと一般化機能には、さらに強化が必要です。
この手紙では、深いニューラルネットワークを活用して、状態を直接推定する代わりに物理モデルの状態残差を修正する車両ダイナミクス補正システムを提案することにより、これらの問題に対処します。
このシステムは、ネットワーク学習の難しさを大幅に削減し、車両のダイナミクスの推定精度を改善します。
さらに、新しい変圧器ベースのダイナミクス残差補正ネットワークDytrを開発しました。
このネットワークは、状態残差を高次元クエリとして暗黙的に表し、ダイナミクス状態の特徴と相互作用することにより、推定残差を繰り返し更新します。
シミュレーションの実験は、提案されたシステムが物理学モデルよりもはるかにうまく機能することを示しており、提案されているDYTRモデルは、ダイナミクス状態の残差補正タスクで最高のパフォーマンスを達成し、単純な3 DOF車両モデルの状態予測誤差を平均92.3%、
それぞれ2つのデータセットで59.9%。

要約(オリジナル)

The vehicle dynamics model serves as a vital component of autonomous driving systems, as it describes the temporal changes in vehicle state. In a long period, researchers have made significant endeavors to accurately model vehicle dynamics. Traditional physics-based methods employ mathematical formulae to model vehicle dynamics, but they are unable to adequately describe complex vehicle systems due to the simplifications they entail. Recent advancements in deep learning-based methods have addressed this limitation by directly regressing vehicle dynamics. However, the performance and generalization capabilities still require further enhancement. In this letter, we address these problems by proposing a vehicle dynamics correction system that leverages deep neural networks to correct the state residuals of a physical model instead of directly estimating the states. This system greatly reduces the difficulty of network learning and thus improves the estimation accuracy of vehicle dynamics. Furthermore, we have developed a novel Transformer-based dynamics residual correction network, DyTR. This network implicitly represents state residuals as high-dimensional queries, and iteratively updates the estimated residuals by interacting with dynamics state features. The experiments in simulations demonstrate the proposed system works much better than physics model, and our proposed DyTR model achieves the best performances on dynamics state residual correction task, reducing the state prediction errors of a simple 3 DoF vehicle model by an average of 92.3% and 59.9% in two dataset, respectively.

arxiv情報

著者 Jinyu Miao,Rujun Yan,Bowei Zhang,Tuopu Wen,Kun Jiang,Mengmeng Yang,Jin Huang,Zhihua Zhong,Diange Yang
発行日 2025-02-17 13:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Residual Learning towards High-fidelity Vehicle Dynamics Modeling with Transformer はコメントを受け付けていません

Estimating the Lateral Motion States of an Underwater Robot by Propeller Wake Sensing Using an Artificial Lateral Line

要約

分散フローセンサーを含む人工横方向のライン(すべて)は、ロボット魚のようなバイオインスピレーションを受けた水中ロボットの運動状態を感知することに成功しています。
ただし、回転プロペラによって駆動されるロボットへの適用は、プロペラウェイクフローの複雑さのために未開拓のままです。
このペーパーでは、水中ロボットのリーダーフォロワーフォーメーションのプロペラウェイクを感知するためにすべてを使用する可能性を調査します。
リーダープロペラの横方向の動きの状態を推定するために、このペーパーでは、プロペラウェイクの分散圧力測定から時間的および空間的特徴を抽出するマルチアウトプットディープラーニングネットワークを設計します。
設計されたテストベッドで広範な実験が行われ、その結果は提案されたプロペラウェイクセンシング方法の有効性を検証します。

要約(オリジナル)

The artificial lateral line (ALL), comprising distributed flow sensors, has been successful in sensing motion states of bioinspired underwater robots like robotic fish. However, its application to robots driven by rotating propellers remains unexplored due to the complexity of propeller wake flow. This paper investigates the feasibility of using ALL to sense propeller wake for underwater robot leader-follower formation. To estimate the lateral motion states of a leader propeller, this paper designs a multi-output deep learning network that extracts temporal and spatial features from distributed pressure measurements of propeller wake. Extensive experiments are conducted on a designed testbed, the results of which validate the effectiveness of the proposed propeller wake sensing method.

arxiv情報

著者 Jun Wang,Dexin Zhao,Youxi Zhao,Feitian Zhang,Tongsheng Shen
発行日 2025-02-17 14:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Estimating the Lateral Motion States of an Underwater Robot by Propeller Wake Sensing Using an Artificial Lateral Line はコメントを受け付けていません

I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning

要約

ヒューマノイドロボットは、視覚的な忠実度を高い視力で人間の動きを模倣する可能性がありますが、これらの動きを実用的で物理的な実行に変換することは依然として重要な課題です。
グラフィックスコミュニティの既存の手法は、物理ベースの実現可能性よりも視覚的な忠実度を優先し、実用的なアプリケーションに二足歩行システムを展開するための重要な課題を提起します。
このペーパーでは、これらの問題は、基準のある人間の軌跡を正常に追跡しながら運動の類似性を高める脚のヒューマノイドロボットに物理ベースの高品質運動模倣を生成するために、境界のある残留補強学習を通じて対処します。
私たちのフレームワークは、境界残留補強学習(I-CTRL)を介してヒューマノイドロボットを制御するための模倣により、非物理ベースのリターゲティング運動に対する制約のある洗練として動きの模倣を再定式化します。
i-Ctrlは、5つのロボットに一般化するシンプルでユニークな報酬で動きの模倣に優れています。
さらに、当社のフレームワークでは、多様な動きを介して統一されたRLポリシーを効率的にトレーニングする際に、大規模なモーションデータセットを管理する自動優先スケジューラを導入します。
提案されたアプローチは、二足歩行ロボットの制御を進める上で重要な前進を意味し、成功する運動模倣のために視覚的および身体的リアリズムを調整することの重要性を強調します。

要約(オリジナル)

Humanoid robots have the potential to mimic human motions with high visual fidelity, yet translating these motions into practical, physical execution remains a significant challenge. Existing techniques in the graphics community often prioritize visual fidelity over physics-based feasibility, posing a significant challenge for deploying bipedal systems in practical applications. This paper addresses these issues through bounded residual reinforcement learning to produce physics-based high-quality motion imitation onto legged humanoid robots that enhance motion resemblance while successfully following the reference human trajectory. Our framework, Imitation to Control Humanoid Robots Through Bounded Residual Reinforcement Learning (I-CTRL), reformulates motion imitation as a constrained refinement over non-physics-based retargeted motions. I-CTRL excels in motion imitation with simple and unique rewards that generalize across five robots. Moreover, our framework introduces an automatic priority scheduler to manage large-scale motion datasets when efficiently training a unified RL policy across diverse motions. The proposed approach signifies a crucial step forward in advancing the control of bipedal robots, emphasizing the importance of aligning visual and physical realism for successful motion imitation.

arxiv情報

著者 Yashuai Yan,Esteve Valls Mascaro,Tobias Egle,Dongheui Lee
発行日 2025-02-17 14:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning はコメントを受け付けていません

Stonefish: Supporting Machine Learning Research in Marine Robotics

要約

シミュレーションは、海洋ロボット工学で非常に価値があり、水中および表面操作の困難な条件でテストするための費用対効果の高い制御環境を提供します。
現実世界の試験の高いコストと物流上の困難を考えると、海底環境の運用条件をキャプチャできるシミュレーターは、遠隔操作および自律的な水中車両のアルゴリズムの開発と改良の鍵となっています。
このペーパーでは、海洋ロボティクスソリューションの開発とテストをサポートする高度なオープンソースプラットフォームであるStonefish Simulatorの最近の機能強化を強調しています。
キーの更新には、イベントベースのカメラ、サーマルカメラ、光フローカメラなどの追加のセンサーのスイート、視覚的な光通信、テザー操作のサポート、改善されたスラスタモデリング、より柔軟な流体力学、強化
ソナーの精度。
これらの開発と自動化された注釈ツールは、特に既知のグラウンドトゥルースを備えたトレーニングデータを収集するのが難しいか不可能な機械学習の分野で、海洋ロボット工学研究におけるストーンフィッシュの役割を大幅に強化します。

要約(オリジナル)

Simulations are highly valuable in marine robotics, offering a cost-effective and controlled environment for testing in the challenging conditions of underwater and surface operations. Given the high costs and logistical difficulties of real-world trials, simulators capable of capturing the operational conditions of subsea environments have become key in developing and refining algorithms for remotely-operated and autonomous underwater vehicles. This paper highlights recent enhancements to the Stonefish simulator, an advanced open-source platform supporting development and testing of marine robotics solutions. Key updates include a suite of additional sensors, such as an event-based camera, a thermal camera, and an optical flow camera, as well as, visual light communication, support for tethered operations, improved thruster modelling, more flexible hydrodynamics, and enhanced sonar accuracy. These developments and an automated annotation tool significantly bolster Stonefish’s role in marine robotics research, especially in the field of machine learning, where training data with a known ground truth is hard or impossible to collect.

arxiv情報

著者 Michele Grimaldi,Patryk Cieslak,Eduardo Ochoa,Vibhav Bharti,Hayat Rajani,Ignacio Carlucho,Maria Koskinopoulou,Yvan R. Petillot,Nuno Gracias
発行日 2025-02-17 15:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Stonefish: Supporting Machine Learning Research in Marine Robotics はコメントを受け付けていません